ChatPaper.aiChatPaper

EgoActor: Привязка планирования задач к пространственно-осознанным эгоцентричным действиям для гуманоидных роботов с помощью визуально-языковых моделей

EgoActor: Grounding Task Planning into Spatial-aware Egocentric Actions for Humanoid Robots via Visual-Language Models

February 4, 2026
Авторы: Yu Bai, MingMing Yu, Chaojie Li, Ziyi Bai, Xinlong Wang, Börje F. Karlsson
cs.AI

Аннотация

Развертывание человекоподобных роботов в реальных условиях является фундаментально сложной задачей, поскольку требует тесной интеграции восприятия, локомоции и манипулирования при частичной наблюдаемости и в динамически изменяющихся средах, а также надежного перехода между подзадачами разного типа. Для решения этих проблем мы предлагаем новую задачу — EgoActing, которая требует непосредственного преобразования высокоуровневых инструкций в разнообразные, точные и пространственно-осознанные действия человекоподобного робота. Мы конкретизируем эту задачу, представив EgoActor — унифицированную и масштабируемую визуально-языковую модель (VLM), способную предсказывать примитивы локомоции (например, ходьбу, повороты, движение вбок, изменение высоты), движения головы, команды манипулирования и сценарии взаимодействия человека и робота для координации восприятия и исполнения в реальном времени. Мы используем широкий спектр данных обучения на основе эгоцентрических RGB-данных из реальных демонстраций, вопросно-ответных заданий на пространственное мышление и демонстраций в симулированной среде, что позволяет EgoActor принимать надежные, контекстно-зависимые решения и выполнять плавный вывод действий (менее чем за 1 секунду) как в моделях с 8 млрд, так и с 4 млрд параметров. Обширные оценки в симулированных и реальных условиях показывают, что EgoActor эффективно связывает абстрактное планирование задач с конкретным моторным исполнением, одновременно демонстрируя обобщение на разнообразные задачи и ранее не встречавшиеся среды.
English
Deploying humanoid robots in real-world settings is fundamentally challenging, as it demands tight integration of perception, locomotion, and manipulation under partial-information observations and dynamically changing environments. As well as transitioning robustly between sub-tasks of different types. Towards addressing these challenges, we propose a novel task - EgoActing, which requires directly grounding high-level instructions into various, precise, spatially aware humanoid actions. We further instantiate this task by introducing EgoActor, a unified and scalable vision-language model (VLM) that can predict locomotion primitives (e.g., walk, turn, move sideways, change height), head movements, manipulation commands, and human-robot interactions to coordinate perception and execution in real-time. We leverage broad supervision over egocentric RGB-only data from real-world demonstrations, spatial reasoning question-answering, and simulated environment demonstrations, enabling EgoActor to make robust, context-aware decisions and perform fluent action inference (under 1s) with both 8B and 4B parameter models. Extensive evaluations in both simulated and real-world environments demonstrate that EgoActor effectively bridges abstract task planning and concrete motor execution, while generalizing across diverse tasks and unseen environments.
PDF311February 6, 2026