오픈 보커블러리 시각적 이동-조작을 위한 휴머노이드 엔드 이펙터 제어 학습
Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation
February 18, 2026
저자: Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta
cs.AI
초록
휴머노이드 로봇이 실제 환경에서 임의의 객체를 시각 기반 이동-매니플레이션(loco-manipulation)하기 위해서는 정확한 엔드 이펙터(End-Effector, EE) 제어와 시각 입력(예: RGB-D 이미지)을 통한 장면에 대한 일반화된 이해가 필요합니다. 기존 접근법은 실제 세계의 모방 학습에 기반하고 있으며, 대규모 학습 데이터셋 수집의 어려움으로 인해 제한된 일반화 성능을 보입니다. 본 논문은 대규모 비전 모델의 강력한 일반화 및 개방형 어휘 이해 능력과 시뮬레이션 훈련을 통한 강력한 제어 성능을 결합한, 휴머노이드 로봇의 객체 이동-매니플레이션을 위한 새로운 패러다임인 HERO를 제시합니다. 우리는 이를 위해 정확한 잔차 인식(residual-aware) 엔드 이펙터 추적 정책을 설계하여 달성했습니다. 이 EE 추적 정책은 고전적 로봇공학과 기계 학습을 결합합니다. 여기에는 a) 잔여 엔드 이펙터 목표를 참조 궤적으로 변환하기 위한 역기구학, b) 정확한 정기구학을 위한 학습된 신경망 순기구학 모델, c) 목표 조정, d) 재계획이 활용됩니다. 이러한 혁신들을 함께 적용하여 엔드 이펙터 추적 오류를 3.2배 줄였습니다. 우리는 이 정확한 엔드 이펙터 추적기를 활용하여 강력한 시각 일반화를 위해 개방형 어휘 대규모 비전 모델을 사용하는 모듈식 이동-매니플레이션 시스템을 구축했습니다. 우리의 시스템은 사무실부터 커피숍에 이르기까지 다양한 실제 환경에서 운영될 수 있으며, 로봇은 높이 43cm에서 92cm에 이르는 다양한 표면에서 머그컵, 사과, 장난감 등과 같은 다양한 일상 객체를 안정적으로 조작할 수 있습니다. 시뮬레이션과 실제 환경에서 수행한 체계적인 모듈별 및 종단간 테스트는 우리가 제안하는 설계의 효과성을 입증합니다. 본 논문의 발전이 휴머노이드 로봇이 일상적인 객체와 상호작용하도록 훈련시키는 새로운 방식을 열어갈 수 있을 것으로 믿습니다.
English
Visual loco-manipulation of arbitrary objects in the wild with humanoid robots requires accurate end-effector (EE) control and a generalizable understanding of the scene via visual inputs (e.g., RGB-D images). Existing approaches are based on real-world imitation learning and exhibit limited generalization due to the difficulty in collecting large-scale training datasets. This paper presents a new paradigm, HERO, for object loco-manipulation with humanoid robots that combines the strong generalization and open-vocabulary understanding of large vision models with strong control performance from simulated training. We achieve this by designing an accurate residual-aware EE tracking policy. This EE tracking policy combines classical robotics with machine learning. It uses a) inverse kinematics to convert residual end-effector targets into reference trajectories, b) a learned neural forward model for accurate forward kinematics, c) goal adjustment, and d) replanning. Together, these innovations help us cut down the end-effector tracking error by 3.2x. We use this accurate end-effector tracker to build a modular system for loco-manipulation, where we use open-vocabulary large vision models for strong visual generalization. Our system is able to operate in diverse real-world environments, from offices to coffee shops, where the robot is able to reliably manipulate various everyday objects (e.g., mugs, apples, toys) on surfaces ranging from 43cm to 92cm in height. Systematic modular and end-to-end tests in simulation and the real world demonstrate the effectiveness of our proposed design. We believe the advances in this paper can open up new ways of training humanoid robots to interact with daily objects.