オープン語彙の視覚的移動操作のためのヒューマノイドエンドエフェクタ制御の学習 (注:タイトルは専門性を保ちつつ自然な日本語表現にしています。「End-Effector」はロボット工学で標準的な「エンドエフェクタ」、「Loco-Manipulation」は「移動操作」と訳し、学術論文らしい表現を心がけました。)
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
February 18, 2026
著者: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
cs.AI
要旨
ヒューマノイドロボットによる実環境における任意の物体の視覚的移動把持(loco-manipulation)には、正確なエンドエフェクタ(EE)制御と、視覚入力(例:RGB-D画像)を通じた環境の一般化可能な理解が求められる。既存の手法は実世界での模倣学習に基づくが、大規模な訓練データセットの収集が困難であるため、一般化性能が限られている。本論文は、ヒューマノイドロボットによる物体の移動把持のための新たなパラダイム「HERO」を提案する。これは、大規模視覚モデルが持つ強力な一般化能力と開放語彙理解を、シミュレーション訓練による高精度な制御性能と組み合わせたものである。これを実現するため、我々は残差を考慮した高精度なEE追跡ポリシーを設計した。このEE追跡ポリシーは、古典的なロボティクスと機械学習を融合させている。具体的には、a) 逆運動学を用いて残差エンドエフェクタ目標を参照軌道に変換、b) 正確な順運動学のための学習済み神経ネットワークフォワードモデル、c) 目標調整、d) 再計画を組み合わせている。これらの革新により、エンドエフェクタ追跡誤差を3.2分の1に低減することに成功した。この高精度なエンドエフェクタ追跡器を基盤として、強力な視覚的一般化を実現する開放語彙大規模視覚モデルを活用した、移動把持のためのモジュラーシステムを構築した。本システムは、オフィスからコーヒーショップまで多様な実環境で動作可能であり、43cmから92cmの高さの様々な台面上で、マグカップ、リンゴ、玩具などの日常品を確実に把持できる。シミュレーションと実環境における体系的モジュールテストおよびエンドツーエンドテストは、提案手法の有効性を実証している。本論文の進展が、ヒューマノイドロボットによる日常物体との相互作用訓練の新たな道を開くことを期待する。
English
Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.