ChatPaper.aiChatPaper

Lernen der Endeffektor-Steuerung für humanoide Roboter zur offen-vokabulären visuellen Loko-Manipulation

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

February 18, 2026
Autoren: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
cs.AI

Zusammenfassung

Die visuelle Loko-Manipulation beliebiger Objekte in unstrukturierten Umgebungen mit humanoiden Robotern erfordert eine präzise Endeffektor (EE)-Steuerung und ein generalisierbares Verständnis der Szene durch visuelle Eingaben (z.B. RGB-D-Bilder). Bestehende Ansätze basieren auf Imitationslernen in der realen Welt und weisen aufgrund der Schwierigkeiten bei der Erfassung groß angelegter Trainingsdatensätze eine begrenzte Generalisierungsfähigkeit auf. Dieses Papier stellt ein neues Paradigma, HERO, für die Objekt-Loko-Manipulation mit humanoiden Robotern vor, das die starke Generalisierungsfähigkeit und open-vocabulary-Understanding großer Vision-Modelle mit der hohen Steuerungsleistung aus simuliertem Training kombiniert. Wir erreichen dies durch die Entwicklung einer präzisen, residualbewussten EE-Tracking-Policy. Diese EE-Tracking-Policy kombiniert klassische Robotik mit maschinellem Lernen. Sie verwendet a) inverse Kinematik zur Umwandlung von Residualzielen für den Endeffektor in Referenztrajektorien, b) ein gelerntes neuronales Vorwärtsmodell für präzise Vorwärtskinematik, c) Zielanpassung und d) Neuplanung. Gemeinsam helfen uns diese Innovationen, den Endeffektor-Tracking-Fehler um den Faktor 3,2 zu reduzieren. Wir nutzen diesen präzisen Endeffektor-Tracker, um ein modulares System für die Loko-Manipulation aufzubauen, in dem wir open-vocabulary große Vision-Modelle für eine starke visuelle Generalisierung einsetzen. Unser System ist in der Lage, in verschiedenen realen Umgebungen zu operieren, von Büros bis hin zu Cafés, wobei der Roboter in der Lage ist, verschiedene Alltagsobjekte (z.B. Tassen, Äpfel, Spielzeuge) zuverlässig auf Oberflächen mit Höhen zwischen 43 cm und 92 cm zu manipulieren. Systematische modulare und End-to-End-Tests in Simulation und realer Welt demonstrieren die Wirksamkeit unseres vorgeschlagenen Designs. Wir glauben, dass die Fortschritte in diesem Papier neue Wege für das Training humanoider Roboter zur Interaktion mit Alltagsgegenständen eröffnen können.
English
Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.
PDF263March 28, 2026