ChatPaper.aiChatPaper

EgoActor : Ancrage de la planification de tâches dans des actions égocentriques spatialement conscientes pour les robots humanoïdes via des modèles visio-linguistiques

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

February 4, 2026
papers.authors: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson
cs.AI

papers.abstract

Le déploiement de robots humanoïdes dans des environnements réels est fondamentalement complexe, car il exige une intégration étroite de la perception, de la locomotion et de la manipulation sous des observations à information partielle et dans des environnements dynamiquement changeants, ainsi qu'une transition robuste entre des sous-tâches de types différents. Pour relever ces défis, nous proposons une nouvelle tâche – EgoActing – qui consiste à ancrer directement des instructions de haut niveau dans diverses actions humanoïdes, précises et spatialement conscientes. Nous concrétisons cette tâche en introduisant EgoActor, un modèle vision-langage (VLM) unifié et évolutif capable de prédire des primitives de locomotion (par exemple, marcher, tourner, se déplacer latéralement, changer de hauteur), des mouvements de tête, des commandes de manipulation et des interactions humain-robot pour coordonner la perception et l'exécution en temps réel. Nous tirons parti d'un large apprentissage supervisé à partir de données égocentriques en RGB uniquement issues de démonstrations réelles, de questions-réponses de raisonnement spatial et de démonstrations en environnement simulé, permettant à EgoActor de prendre des décisions robustes et contextuelles et d'effectuer une inférence d'actions fluide (en moins d'1s) avec des modèles de 8B et 4B paramètres. Des évaluations approfondies dans des environnements simulés et réels démontrent qu'EgoActor relie efficacement la planification abstraite des tâches et l'exécution motrice concrète, tout en généralisant à diverses tâches et à des environnements non vus.
English
Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.
PDF311February 6, 2026