EgoActor: 휴머노이드 로봇을 위한 시공간 인식 에고센트릭 행동 기반 작업 계획 수립
EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models
February 4, 2026
저자: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson
cs.AI
초록
휴머노이드 로봇을 실제 환경에 배치하는 것은 부분적 정보 관측과 동적으로 변화하는 환경 속에서 인지, 이동, 조작의 긴밀한 통합을 요구하므로 근본적으로 어려운 과제입니다. 또한 서로 다른 유형의 하위 작업 간의 견고한 전환도 필요합니다. 이러한 문제를 해결하기 위해 우리는 높은 수준의 지시를 다양하고 정밀하며 공간 인식이 가능한 휴머노이드 동작으로 직접 연결하는 새로운 과제인 EgoActing을 제안합니다. 우리는 이 과제를 더욱 구체화하기 위해 이동 기본 동작(걷기, 회전, 옆으로 이동, 높이 변경 등), 머리 움직임, 조작 명령, 그리고 인지와 실행을 실시간으로 조율하기 위한 인간-로봇 상호작용을 예측할 수 있는 통합적이고 확장 가능한 비전-언어 모델(VLM)인 EgoActor를 소개합니다. 우리는 실제 데모에서 얻은 에고센트릭 RGB 단일 데이터, 공간 추론 질의응답, 그리고 시뮬레이션 환경 데모에 대한 광범위한 지도를 활용하여 EgoActor가 맥락을 인지한 견고한 결정을 내리고, 8B 및 4B 매개변수 모델 모두에서 원활한 동작 추론(1초 미만)을 수행할 수 있도록 합니다. 시뮬레이션과 실제 환경에서의 광범위한 평가를 통해 EgoActor가 추상적인 작업 계획과 구체적인 모터 실행을 효과적으로 연결하면서도 다양한 작업과 보지 않은 환경에 대해 일반화 성능을 보임을 입증합니다.
English
Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.