Apprentissage du contrôle d'effecteur terminal humanoïde pour la loco-manipulation visuelle à vocabulaire ouvert
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
February 18, 2026
Auteurs: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
cs.AI
Résumé
La loco-manipulation visuelle d'objets arbitraires en environnement non contrôlé avec des robots humanoïdes nécessite un contrôle précis de l'effecteur terminal (ET) et une compréhension généralisable de la scène via des entrées visuelles (par exemple, des images RV-D). Les approches existantes, basées sur l'apprentissage par imitation dans le monde réel, présentent une généralisation limitée en raison de la difficulté à collecter des jeux de données d'entraînement à grande échelle. Cet article présente un nouveau paradigme, HERO, pour la loco-manipulation d'objets avec des robots humanoïdes, qui combine la forte généralisation et la compréhension open-vocabulary des grands modèles visuels avec les performances de contrôle robustes issues de l'entraînement en simulation. Nous y parvenons en concevant une politique de suivi de l'ET précise et sensible aux résidus. Cette politique de suivi combine la robotique classique et l'apprentissage automatique. Elle utilise a) la cinématique inverse pour convertir les cibles résiduelles de l'effecteur terminal en trajectoires de référence, b) un modèle direct neuronal appris pour une cinématique directe précise, c) un ajustement du but, et d) une replanification. Ensemble, ces innovations nous aident à réduire l'erreur de suivi de l'effecteur terminal par un facteur de 3,2. Nous utilisons ce suivi précis de l'effecteur terminal pour construire un système modulaire de loco-manipulation, où nous exploitons les grands modèles visuels open-vocabulary pour une forte généralisation visuelle. Notre système est capable de fonctionner dans divers environnements réels, des bureaux aux cafés, où le robot peut manipuler de manière fiable divers objets du quotidien (par exemple, des tasses, des pommes, des jouets) sur des surfaces dont la hauteur varie de 43 cm à 92 cm. Des tests systématiques modulaires et de bout en bout, en simulation et dans le monde réel, démontrent l'efficacité de notre conception proposée. Nous pensons que les avancées présentées dans cet article peuvent ouvrir de nouvelles voies pour entraîner les robots humanoïdes à interagir avec des objets quotidiens.
English
Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.