ChatPaper.aiChatPaper

EgoActor: Verankerung von Aufgabenplanung in raumbezogene egocentrische Aktionen für humanoide Roboter mittels visuell-sprachlicher Modelle

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

February 4, 2026
papers.authors: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson
cs.AI

papers.abstract

Der Einsatz humanoider Roboter in realen Umgebungen ist grundlegend herausfordernd, da er eine enge Integration von Wahrnehmung, Fortbewegung und Manipulation bei Beobachtungen mit unvollständigen Informationen und sich dynamisch verändernden Umgebungen erfordert. Ebenso den robusten Übergang zwischen Teilaufgaben unterschiedlicher Art. Um diese Herausforderungen zu adressieren, schlagen wir eine neuartige Aufgabe vor – EgoActing –, die das direkte Verankern von hochleveligen Anweisungen in verschiedene, präzise, räumlich bewusste Aktionen des Humanoiden erfordert. Wir konkretisieren diese Aufgabe weiter, indem wir EgoActor vorstellen, ein vereinheitlichtes und skalierbares Vision-Language-Modell (VLM), das Fortbewegungsprimitive (z.B. gehen, drehen, seitwärts bewegen, Höhe ändern), Kopfbewegungen, Manipulationsbefehle und Mensch-Roboter-Interaktionen vorhersagen kann, um Wahrnehmung und Ausführung in Echtzeit zu koordinieren. Wir nutzen breite Überwachung anhand egocentrischer RGB-Daten aus realen Demonstrationen, räumlicher Reasoning-Frage-Antwort-Aufgaben und Demonstrationen in simulierten Umgebungen. Dies ermöglicht es EgoActor, robuste, kontextbewusste Entscheidungen zu treffen und flüssige Aktionsinferenz (unter 1s) sowohl mit 8B- als auch 4B-Parameter-Modellen durchzuführen. Umfangreiche Evaluierungen in simulierten und realen Umgebungen zeigen, dass EgoActor effektiv abstrakte Aufgabenplanung und konkrete Motorausführung überbrückt und dabei über verschiedene Aufgaben und ungesehene Umgebungen hinweg generalisiert.
English
Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.
PDF311February 6, 2026