ChatPaper.aiChatPaper

EgoActor: Fundamentando o Planejamento de Tarefas em Ações Egocêntricas Espacialmente Conscientes para Robôs Humanoides por meio de Modelos Visuo-Linguísticos

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

February 4, 2026
Autores: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson
cs.AI

Resumo

A implantação de robôs humanoides em ambientes do mundo real é fundamentalmente desafiadora, uma vez que exige a integração rigorosa de perceção, locomoção e manipulação sob observações de informação parcial e em ambientes em mudança dinâmica. Tal como a transição robusta entre sub-tarefas de diferentes tipos. Para enfrentar estes desafios, propomos uma nova tarefa - EgoActing - que requer o enraizamento direto de instruções de alto nível em várias ações humanoides precisas e espacialmente conscientes. Instanciamos ainda esta tarefa através da introdução do EgoActor, um modelo unificado e escalável de visão-linguagem (VLM) que pode prever primitivas de locomoção (por exemplo, andar, virar, mover-se lateralmente, alterar a altura), movimentos da cabeça, comandos de manipulação e interações homem-robô para coordenar a perceção e a execução em tempo real. Aproveitamos uma ampla supervisão de dados egocêntricos apenas em RGB a partir de demonstrações do mundo real, questionários de raciocínio espacial e demonstrações em ambientes simulados, permitindo ao EgoActor tomar decisões robustas e contextualmente conscientes e realizar inferências de ação fluidas (inferiores a 1s) com modelos de 8B e 4B de parâmetros. Avaliações extensivas em ambientes simulados e do mundo real demonstram que o EgoActor efetivamente liga o planeamento abstrato de tarefas e a execução motora concreta, generalizando simultaneamente entre diversas tarefas e ambientes não vistos.
English
Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.
PDF333February 8, 2026