Being-0: Гуманоидный роботизированный агент с моделями "зрение-язык" и модульными навыками

Аннотация

Создание автономных роботизированных агентов, способных достигать уровня производительности человека в реальных задачах, связанных с воплощением в физическом мире, является конечной целью исследований в области гуманоидных роботов. Последние достижения значительно продвинули разработку высокоуровневого познания с использованием фундаментальных моделей (Foundation Models, FMs) и развитие низкоуровневых навыков для гуманоидных роботов. Однако прямое объединение этих компонентов часто приводит к низкой устойчивости и эффективности из-за накопления ошибок в долгосрочных задачах и различной задержки работы модулей. Мы представляем Being-0, иерархическую агентскую структуру, которая интегрирует FM с модульной библиотекой навыков. FM отвечает за высокоуровневые когнитивные задачи, такие как понимание инструкций, планирование задач и рассуждение, в то время как библиотека навыков обеспечивает стабильную локомоцию и точное манипулирование для низкоуровневого управления. Для устранения разрыва между этими уровнями мы предлагаем новый модуль Connector, основанный на легковесной визуально-языковой модели (VLM). Connector расширяет воплощенные возможности FM, переводя языковые планы в исполняемые команды навыков и динамически координируя локомоцию и манипулирование для повышения успешности выполнения задач. Благодаря тому, что все компоненты, кроме FM, могут быть развернуты на недорогих бортовых вычислительных устройствах, Being-0 обеспечивает эффективную работу в реальном времени на полноразмерном гуманоидном роботе, оснащенном ловкими руками и активным зрением. Многочисленные эксперименты в крупных помещениях демонстрируют эффективность Being-0 в решении сложных долгосрочных задач, требующих выполнения трудных подзадач навигации и манипулирования. Для получения дополнительной информации и видеоматериалов посетите https://beingbeyond.github.io/being-0.

English

Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Being-0: Гуманоидный роботизированный агент с моделями "зрение-язык" и модульными навыками

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Аннотация

Support