Aprendizado de Controle de Efetuador Final para Locomoção-Manipulação Visual de Vocabulário Aberto em Humanoides
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
February 18, 2026
Autores: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
cs.AI
Resumo
A locomanipulação visual de objetos arbitrários em ambientes não controlados com robôs humanoides requer controle preciso do efetuador final (EE) e uma compreensão generalizável da cena por meio de entradas visuais (por exemplo, imagens RGB-D). As abordagens existentes baseiam-se em aprendizagem por imitação no mundo real e exibem generalização limitada devido à dificuldade em recolher conjuntos de dados de treino em larga escala. Este artigo apresenta um novo paradigma, HERO, para locomanipulação de objetos com robôs humanoides que combina a forte generalização e compreensão de vocabulário aberto de grandes modelos de visão com o forte desempenho de controlo proveniente do treino em simulação. Conseguimos isto através do desenho de uma política de rastreamento do EE precisa e consciente dos resíduos. Esta política de rastreamento do EE combina robótica clássica com aprendizagem automática. Ela utiliza a) cinemática inversa para converter objetivos residuais do efetuador final em trajetórias de referência, b) um modelo direto neural aprendido para cinemática direta precisa, c) ajuste de objetivos, e d) replaneamento. Juntas, estas inovações ajudam-nos a reduzir o erro de rastreamento do efetuador final em 3,2 vezes. Utilizamos este rastreador preciso do efetuador final para construir um sistema modular para locomanipulação, onde usamos grandes modelos de visão de vocabulário aberto para uma forte generalização visual. O nosso sistema é capaz de operar em diversos ambientes do mundo real, desde escritórios a cafés, onde o robô é capaz de manipular de forma fiável vários objetos do quotidiano (por exemplo, canecas, maçãs, brinquedos) em superfícies com alturas que variam entre 43cm e 92cm. Testes sistemáticos modulares e de ponta a ponta em simulação e no mundo real demonstram a eficácia do nosso desenho proposto. Acreditamos que os avanços neste artigo podem abrir novas formas de treinar robôs humanoides para interagir com objetos do dia a dia.
English
Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.