Обучение управлению концевым эффектором гуманоидного робота для визуальной локомоции и манипуляции с открытым словарем
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
February 18, 2026
Авторы: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
cs.AI
Аннотация
Визуальная локоманипуляция произвольными объектами в естественной среде с помощью гуманоидных роботов требует точного управления концевым эффектором (КЭ) и обобщающего понимания сцены посредством визуальных входных данных (например, RGB-D изображений). Существующие подходы основаны на обучении с подражанием в реальном мире и демонстрируют ограниченную обобщающую способность из-за сложности сбора крупномасштабных наборов данных для обучения. В данной статье представлена новая парадигма HERO для локоманипуляции объектами с помощью гуманоидных роботов, которая сочетает мощную обобщающую способность и открыто-словарное понимание больших визуальных моделей с высоким качеством управления, достигаемым за счет обучения в симуляции. Мы достигаем этого за счет разработки точной политики отслеживания КЭ, учитывающей остаточные ошибки. Данная политика отслеживания КЭ объединяет классическую робототехнику с машинным обучением. Она использует: а) обратную кинематику для преобразования целевых положений КЭ с учетом остаточной ошибки в опорные траектории, b) обученную нейросетевую прямую кинематическую модель для точного расчета прямой кинематики, c) корректировку цели и d) перепланирование. В совокупности эти инновации позволяют нам снизить ошибку отслеживания концевого эффектора в 3,2 раза. Мы используем этот точный трекер КЭ для построения модульной системы локоманипуляции, в которой применяем открыто-словарные большие визуальные модели для обеспечения мощной визуальной обобщающей способности. Наша система способна функционировать в различных реальных условиях, от офисов до кофеен, где робот может надежно манипулировать различными повседневными объектами (например, кружками, яблоками, игрушками) на поверхностях высотой от 43 см до 92 см. Систематические модульные и сквозные испытания в симуляции и реальном мире демонстрируют эффективность предложенной нами конструкции. Мы считаем, что достижения, представленные в этой статье, могут открыть новые пути обучения гуманоидных роботов взаимодействию с повседневными объектами.
English
Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.