ChatPaper.aiChatPaper

Leren van mensachtige eind-effectorbesturing voor open-vocabulair visueel loco-manipulatie

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

February 18, 2026
Auteurs: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
cs.AI

Samenvatting

Visuele loco-manipulatie van willekeurige objecten in ongestructureerde omgevingen met humanoïde robots vereist nauwkeurige eindeffector (EE)-regeling en een generaliseerbaar begrip van de scène via visuele invoer (bijv. RGB-D-beelden). Bestaande benaderingen zijn gebaseerd op imitation learning in de echte wereld en vertonen beperkte generalisatie door de moeilijkheid om grootschalige trainingsdatasets te verzamelen. Dit artikel presenteert een nieuw paradigma, HERO, voor object-locomotie-manipulatie met humanoïde robots dat de sterke generalisatie en open-vocabulary-begrip van grote vision-modellen combineert met sterke regelprestaties uit gesimuleerde training. Wij bereiken dit door een nauwkeurig residual-aware EE-volgbeleid te ontwerpen. Dit EE-volgbeleid combineert klassieke robotica met machine learning. Het gebruikt a) inverse kinematica om residuele eindeffector-doelen om te zetten in referentietrajecten, b) een geleerd neuraal voorwaarts model voor nauwkeurige voorwaartse kinematica, c) doelaanpassing en d) herplanning. Gezamenlijk helpen deze innovaties ons de eindeffector-volgfout met 3,2x te verminderen. Wij gebruiken deze nauwkeurige eindeffector-volger om een modulair systeem voor loco-manipulatie te bouwen, waarbij wij open-vocabulary grote vision-modellen gebruiken voor sterke visuele generalisatie. Ons systeem kan functioneren in diverse real-world omgevingen, van kantoren tot coffeeshops, waar de robot in staat is diverse alledaagse objecten (bijv. mokken, appels, speelgoed) betrouwbaar te manipuleren op oppervlakken met hoogtes variërend van 43cm tot 92cm. Systematische modulaire en end-to-end tests in simulatie en de echte wereld demonstreren de effectiviteit van onze voorgestelde ontwerpaanpak. Wij geloven dat de vooruitgang in dit artikel nieuwe manieren kan openen om humanoïde robots te trainen om te interageren met dagelijkse objecten.
English
Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.
PDF263March 28, 2026