房屋 发自 凹非寺量子位 | 大众号 QbitAI
机器狗不语,仅仅一味地在北大未名湖畔捡废物。
好了明说吧,废物是摆拍的道具,但这长脖子的狗子,是真的有点功夫在身上的!
背面算法QuadWBG,搭载了模块化结构,包括运动、感知、操作和规划四个模块;初次在移动抓取使命中引进通用定向可达性映射(Generalized Oriented Reachability Map),提升机器人在六自由度基座下的全身操作泛化才能。
而且结合强化学习与运动规划,使抓取成功率从以往的30%左右,拉升到89%。
项目背面团队来自北大、银河通用、多伦多大学和智源研究院,相关论文已被ICLR 2025接纳。
该作业的一作Jilong Wang对量子位表明,这项关于Loco-manipulation的立异效果,其间的操作才能可以从狗子身上泛化到人形机器人身上。
现在许多机器人厂商的机器人,愈加拿手的是运动操控(而不是操作才能)。咱们期望能把模型操作才能赋能更多机器人本体,不管是人形仍是其他。
Local-Manipulation立异效果
俗话说得好(不是),狗好,废物坏。
所以在北大校园里的各个旮旯,就呈现了宇树机器狗B1如下的繁忙身影。
在QuadWBG的加持下,这只狗子不只可以在实际国际中,从不同方位对地面上的物体进行抓取。
还可以很准确地在凌乱环境中捉住通明or镜面物体,然后放进身上的小背篓里。
先来个前情概要——
该团队的使命是给定一个方针物体的方位,机器狗需求高效地挨近方针物体并终究抓取方针物体。
机器人本体由四足机器狗、6自由度机械臂和平行抓夹组成。
机械臂结尾装置了一个RGBD摄像头,成为了长颈狗子的眼睛,用来获取场景的RGB和红外信息。
假如要把使命归类,这是一个十分典型的Local-Manipulation(运动——操作一体化)使命,它通常指智能体经过物理身体与环境进行部分交互,以完成特定使命的才能。
而「上肢(机械臂)+足式机器人」的Local-Manipulation最早于2023年被提出,后来不断快速开展。
值得注意的是,针对足式机器人的Local-Manipulation,不能直接将抓取检测成果应用于机械臂运动规划,因为它疏忽了本体和机械臂运动之间所需的和谐。
而且因为动作维度不断拓展,实际国际的物理交互又十分复杂,加上地势、视觉等,准确度和通用性依然被约束了。
不过现在,端到端的RL现已进步了运动技能,推动了全身运动与操作端到端战略的开展,使机器狗子们可以履行需求运动而且与物体交互无缝和谐的使命。
Just like在未名湖畔捡废物的小狗子。
解密时间!
北大校园里兢兢业业的小狗子,之所以能准确辨认并抓取地上的各种废物,是因为QuadWBG学习了多种抓取检测技能的成功经验,经过将抓取姿势检测与运动规划相结合。
值得一提的是,这也是初次在移动抓取使命中引进通用定向可达性映射,提升机器人在六自由度基座下的全身操作泛化才能。
可以精准抓取通明物体,哪怕它们挤在一同:
还可以持之以恒地张狂捡拾,把各种原料的各种物体装进背篼里:
最终,结合RL与运动规划,在仿真环境中,不管物体的巨细或几许复杂性怎样,狗子在所有测验物体上均取得了明显更高的成功率,功能十分安稳。
在实际操作中,狗子在14个不同物体实例、装备和环境中的全身抓取成功率到达了89%。
而在此之前的SOTA,仅在30%左右。
针对使命中较难的通明物体抓取,10次接连抓取也取得了80%的单次抓取成功率。
这是怎样做到的?
Jilong Wang解说道,其中心立异,在于模块化结构和通用定向可达性映射。
两大中心立异
通用定向可达性映射,即GROM,是QuadWBG的两大立异之一。
它是4个模块中“规划模块”的产品。
因而,在对话进程中,Jilong Wang依照模块履行使命的逻辑和次序来向量子位介绍了该作业的2大立异点。
至于为什么要做模块化,Jilong Wang给出的解说是:“因为现在端到端还不足以发生满意准确的成果,而模组可以让它发生很准确的全身数据,然后咱们又把实际国际的数据供给给端到端的模型进行练习。”
也就是说,团队仍是期望用模型本身的才能对实际国际进行感知,然后规划运动,而不是人工手动规划。
最终的方针是完成端到端操作,这样也就“没有仿真环境和实际环境的gap了”,还很省钱。
话不多说,先来看看模块化结构这个立异点——
QuadWBG是一个模块化通用四足全身抓取结构,该结构包括运动、感知、操作和规划四个模块。
第一个,运动模块,见上图A。
它担任将本体感知信息(包括当时运动指令,关节方位与速度等)编码成隐式状况信息,并经过多层感知器(MLP)生成动作来满意当时运动指令的要求,然后完成鲁棒的移动才能。
第二个,感知模块,见上图B。
为了实实际时盯梢和准确的抓取姿势猜测,感知模块运用ASGrasp接纳红外图画和RGB图画作为输入,可以猜测准确的深度信息。
随后,猜测的深度点云被输入到GSNet中,然后生成更准确的六自由度抓取姿势。
第三个,操作模块,见上图C。
操作模块采用了一种运动规划办法,以处理全身RL战略在结尾履行器操控中的不准确性问题。
该体系在2个不同的阶段运转:盯梢阶段和抓取阶段。
首先是盯梢阶段,团队将装置的摄像头运动约束在一个预界说的盯梢球体内,并运用可达性映射(RM,Reachability Map)来界说盯梢球体。
在该空间内,恣意方向上都存在有用的反向运动学(IK,Inverse Kinematics)解。
切换机制依据RM和阈值可达性规范构建。
在每个规划进程中,团队运用RM核算所选抓取姿势的可达性;一旦到达阈值,体系将切换到抓取阶段。
其运动规划器在线生成轨道,使体系可以在向方针移动时习惯小的意外运动。
第四个,规划模块,见上图D。
规划模块依据方针抓取位姿,运用通用定向可达性映射来生成移动指令。
现存的ORM(Oriented Reachability Map)可以高效地表明相关于TCP(Tool Center Point)坐标系的潜在基座位姿。
但是,ORM有其约束性——机器人基座必须在平整表面上。
对此,QuadWBG项目中的银河通用团队提出了GORM,它支撑六自由度的机器人基座放置,关于国际坐标系中的恣意方针位姿,均可经过RM的逆运算核算潜在的基座到国际的散布。
一旦界说了方针位姿,GORM将供给高质量潜在基座位姿的散布。
团队练习高层战略以最小化当时基座位姿与最近可行位姿之间的间隔,以鼓舞机器人移动到基座位姿候选方位。
Jilong Wang进一步解说了这一立异性奉献:
它本身的含义就是在6D空间中给恣意位姿,GORM能经过解析的方法告知你,基座呈现在哪个规模、哪个散布是最利于去抓取物体的。
△蓝色箭头是最佳位姿的向量表明
因为GORM在方针位姿坐标系中界说,因而只需核算一次,使其十分高效且十分合适并行练习。
One More Thing
然鹅,因为每次抓取前都要核算出最佳位姿,这就导致了现在的一个局限性:
即使紧挨在一同的两三个废物,机器狗也不能经过一次辨认、一次移动就接连抓取n个。
它必须得阅历“辨认——移动到最佳位姿——抓取——再辨认——移动到新的最佳位姿——抓取”这样的进程。
具体表现就像下面这张图中这样:
捡完一个废物后,机器狗必须得退两步,从头辨认,然后再依据新规划的最佳位姿,接近废物,然后抓取。
不过!
Jilong Wang表明,团队正在想办法处理这个问题,期望完成狗子不需求退回去,看一次就能把运动规模内的废物都捡起来。
削减狗子的作业量,进步功率。
究竟维护动物,人人有责——哪怕是机器动物(doge)。
参阅链接:
[1]https://quadwbg.github.io/
[2]https://arxiv.org/abs/2411.06782