Being-0: Гуманоидный роботизированный агент с моделями "зрение-язык" и модульными навыками
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
March 16, 2025
Авторы: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI
Аннотация
Создание автономных роботизированных агентов, способных достигать уровня производительности человека в реальных задачах, связанных с воплощением в физическом мире, является конечной целью исследований в области гуманоидных роботов. Последние достижения значительно продвинули разработку высокоуровневого познания с использованием фундаментальных моделей (Foundation Models, FMs) и развитие низкоуровневых навыков для гуманоидных роботов. Однако прямое объединение этих компонентов часто приводит к низкой устойчивости и эффективности из-за накопления ошибок в долгосрочных задачах и различной задержки работы модулей. Мы представляем Being-0, иерархическую агентскую структуру, которая интегрирует FM с модульной библиотекой навыков. FM отвечает за высокоуровневые когнитивные задачи, такие как понимание инструкций, планирование задач и рассуждение, в то время как библиотека навыков обеспечивает стабильную локомоцию и точное манипулирование для низкоуровневого управления. Для устранения разрыва между этими уровнями мы предлагаем новый модуль Connector, основанный на легковесной визуально-языковой модели (VLM). Connector расширяет воплощенные возможности FM, переводя языковые планы в исполняемые команды навыков и динамически координируя локомоцию и манипулирование для повышения успешности выполнения задач. Благодаря тому, что все компоненты, кроме FM, могут быть развернуты на недорогих бортовых вычислительных устройствах, Being-0 обеспечивает эффективную работу в реальном времени на полноразмерном гуманоидном роботе, оснащенном ловкими руками и активным зрением. Многочисленные эксперименты в крупных помещениях демонстрируют эффективность Being-0 в решении сложных долгосрочных задач, требующих выполнения трудных подзадач навигации и манипулирования. Для получения дополнительной информации и видеоматериалов посетите https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level
performance in real-world embodied tasks is an ultimate goal in humanoid robot
research. Recent advances have made significant progress in high-level
cognition with Foundation Models (FMs) and low-level skill development for
humanoid robots. However, directly combining these components often results in
poor robustness and efficiency due to compounding errors in long-horizon tasks
and the varied latency of different modules. We introduce Being-0, a
hierarchical agent framework that integrates an FM with a modular skill
library. The FM handles high-level cognitive tasks such as instruction
understanding, task planning, and reasoning, while the skill library provides
stable locomotion and dexterous manipulation for low-level control. To bridge
the gap between these levels, we propose a novel Connector module, powered by a
lightweight vision-language model (VLM). The Connector enhances the FM's
embodied capabilities by translating language-based plans into actionable skill
commands and dynamically coordinating locomotion and manipulation to improve
task success. With all components, except the FM, deployable on low-cost
onboard computation devices, Being-0 achieves efficient, real-time performance
on a full-sized humanoid robot equipped with dexterous hands and active vision.
Extensive experiments in large indoor environments demonstrate Being-0's
effectiveness in solving complex, long-horizon tasks that require challenging
navigation and manipulation subtasks. For further details and videos, visit
https://beingbeyond.github.io/being-0.Summary
AI-Generated Summary