ChatPaper.aiChatPaper

EgoActor: ヒューマノイドロボットのための空間認識エゴセントリック行動へのタスク計画の基盤化 - 視覚言語モデルによるアプローチ

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

February 4, 2026
著者: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson
cs.AI

要旨

ヒューマノイドロボットを実世界環境に展開することは本質的に困難な課題である。部分的な観測情報や動的に変化する環境下で、知覚・移動・操作を緊密に統合する必要があるためだ。さらに、異なる種類のサブタスク間を堅牢に移行する能力も要求される。これらの課題に取り組むため、我々は新しいタスク「EgoActing」を提案する。これは高次元の指示を、多様で精密かつ空間認識を備えたヒューマノイド動作に直接接地することを要求するタスクである。 さらにこのタスクを具体化するため、統一かつスケーラブルな視覚言語モデル「EgoActor」を導入する。本モデルは移動プリミティブ(歩行・旋回・横移動・高さ調整)、頭部動作、操作コマンド、人間-ロボット相互作用を予測し、知覚と実行をリアルタイムで協調させる。実世界デモンストレーションからのエゴセントリックRGBデータ、空間推論QA、シミュレーション環境デモンストレーションによる広範な教師信号を活用することで、EgoActorは文脈を考慮した堅牢な意思決定と1秒未満の流暢な動作推論を、8Bパラメータモデルと4Bパラメータモデルの両方で実現する。 シミュレーション環境と実世界環境の両方における広範な評価により、EgoActorが抽象的なタスク計画と具体的な動作実行を効果的に橋渡しし、多様なタスクや未経験環境への汎化が可能であることが実証された。
English
Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.
PDF311February 6, 2026