EgoActor: Fundamentación de la Planificación de Tareas en Acciones Egocéntricas Espacialmente Conscientes para Robots Humanoides mediante Modelos Visual-Lingüísticos
EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models
February 4, 2026
Autores: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson
cs.AI
Resumen
La implementación de robots humanoides en entornos del mundo real es fundamentalmente desafiante, ya que exige una integración estrecha de la percepción, la locomoción y la manipulación bajo observaciones de información parcial y en entornos que cambian dinámicamente, así como la transición robusta entre subtareas de diferente naturaleza. Para abordar estos desafíos, proponemos una nueva tarea: EgoActing, que requiere la fundamentación directa de instrucciones de alto nivel en diversas acciones humanoides, precisas y espacialmente conscientes. Instanciamos esta tarea mediante la introducción de EgoActor, un modelo unificado y escalable de visión y lenguaje (VLM) que puede predecir primitivas de locomoción (por ejemplo, caminar, girar, moverse lateralmente, cambiar la altura), movimientos de la cabeza, comandos de manipulación e interacciones humano-robot para coordinar la percepción y la ejecución en tiempo real. Aprovechamos una supervisión amplia sobre datos egocéntricos de solo RGB procedentes de demostraciones del mundo real, de respuestas a preguntas de razonamiento espacial y de demostraciones en entornos simulados, lo que permite a EgoActor tomar decisiones robustas y conscientes del contexto, y realizar inferencias de acciones fluidas (en menos de 1s) tanto con modelos de 8B como de 4B de parámetros. Evaluaciones exhaustivas en entornos tanto simulados como del mundo real demuestran que EgoActor puentea efectivamente la planificación abstracta de tareas y la ejecución motora concreta, al mismo tiempo que generaliza a través de diversas tareas y entornos no vistos.
English
Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.