ChatPaper.aiChatPaper

Being-0: Un agente robótico humanoide con modelos visión-lenguaje y habilidades modulares

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

March 16, 2025
Autores: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI

Resumen

Construir agentes robóticos autónomos capaces de alcanzar un rendimiento a nivel humano en tareas corporizadas del mundo real es un objetivo fundamental en la investigación de robots humanoides. Los avances recientes han logrado un progreso significativo en la cognición de alto nivel con Modelos Fundacionales (FMs) y en el desarrollo de habilidades de bajo nivel para robots humanoides. Sin embargo, combinar directamente estos componentes a menudo resulta en una baja robustez y eficiencia debido a la acumulación de errores en tareas de largo horizonte y a la latencia variable de los diferentes módulos. Presentamos Being-0, un marco de agente jerárquico que integra un FM con una biblioteca modular de habilidades. El FM maneja tareas cognitivas de alto nivel, como la comprensión de instrucciones, la planificación de tareas y el razonamiento, mientras que la biblioteca de habilidades proporciona locomoción estable y manipulación diestra para el control de bajo nivel. Para cerrar la brecha entre estos niveles, proponemos un nuevo módulo Conector, impulsado por un modelo ligero de visión y lenguaje (VLM). El Conector mejora las capacidades corporizadas del FM traduciendo planes basados en lenguaje en comandos de habilidades accionables y coordinando dinámicamente la locomoción y la manipulación para mejorar el éxito de las tareas. Con todos los componentes, excepto el FM, desplegables en dispositivos de computación embarcados de bajo costo, Being-0 logra un rendimiento eficiente y en tiempo real en un robot humanoide de tamaño completo equipado con manos diestras y visión activa. Experimentos extensos en entornos interiores grandes demuestran la efectividad de Being-0 para resolver tareas complejas de largo horizonte que requieren subtareas desafiantes de navegación y manipulación. Para más detalles y videos, visite https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Summary

AI-Generated Summary

PDF642March 18, 2025