Being-0: Un agente robótico humanoide con modelos visión-lenguaje y habilidades modulares
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
March 16, 2025
Autores: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI
Resumen
Construir agentes robóticos autónomos capaces de alcanzar un rendimiento a nivel humano en tareas corporizadas del mundo real es un objetivo fundamental en la investigación de robots humanoides. Los avances recientes han logrado un progreso significativo en la cognición de alto nivel con Modelos Fundacionales (FMs) y en el desarrollo de habilidades de bajo nivel para robots humanoides. Sin embargo, combinar directamente estos componentes a menudo resulta en una baja robustez y eficiencia debido a la acumulación de errores en tareas de largo horizonte y a la latencia variable de los diferentes módulos. Presentamos Being-0, un marco de agente jerárquico que integra un FM con una biblioteca modular de habilidades. El FM maneja tareas cognitivas de alto nivel, como la comprensión de instrucciones, la planificación de tareas y el razonamiento, mientras que la biblioteca de habilidades proporciona locomoción estable y manipulación diestra para el control de bajo nivel. Para cerrar la brecha entre estos niveles, proponemos un nuevo módulo Conector, impulsado por un modelo ligero de visión y lenguaje (VLM). El Conector mejora las capacidades corporizadas del FM traduciendo planes basados en lenguaje en comandos de habilidades accionables y coordinando dinámicamente la locomoción y la manipulación para mejorar el éxito de las tareas. Con todos los componentes, excepto el FM, desplegables en dispositivos de computación embarcados de bajo costo, Being-0 logra un rendimiento eficiente y en tiempo real en un robot humanoide de tamaño completo equipado con manos diestras y visión activa. Experimentos extensos en entornos interiores grandes demuestran la efectividad de Being-0 para resolver tareas complejas de largo horizonte que requieren subtareas desafiantes de navegación y manipulación. Para más detalles y videos, visite https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level
performance in real-world embodied tasks is an ultimate goal in humanoid robot
research. Recent advances have made significant progress in high-level
cognition with Foundation Models (FMs) and low-level skill development for
humanoid robots. However, directly combining these components often results in
poor robustness and efficiency due to compounding errors in long-horizon tasks
and the varied latency of different modules. We introduce Being-0, a
hierarchical agent framework that integrates an FM with a modular skill
library. The FM handles high-level cognitive tasks such as instruction
understanding, task planning, and reasoning, while the skill library provides
stable locomotion and dexterous manipulation for low-level control. To bridge
the gap between these levels, we propose a novel Connector module, powered by a
lightweight vision-language model (VLM). The Connector enhances the FM's
embodied capabilities by translating language-based plans into actionable skill
commands and dynamically coordinating locomotion and manipulation to improve
task success. With all components, except the FM, deployable on low-cost
onboard computation devices, Being-0 achieves efficient, real-time performance
on a full-sized humanoid robot equipped with dexterous hands and active vision.
Extensive experiments in large indoor environments demonstrate Being-0's
effectiveness in solving complex, long-horizon tasks that require challenging
navigation and manipulation subtasks. For further details and videos, visit
https://beingbeyond.github.io/being-0.Summary
AI-Generated Summary