Being-0 : Un agent robotique humanoïde doté de modèles vision-langage et de compétences modulaires
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
March 16, 2025
Auteurs: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI
Résumé
La construction d'agents robotiques autonomes capables d'atteindre des performances de niveau humain dans des tâches incarnées du monde réel constitue un objectif ultime dans la recherche sur les robots humanoïdes. Les avancées récentes ont permis des progrès significatifs dans la cognition de haut niveau avec les Modèles Fondamentaux (FMs) et dans le développement de compétences de bas niveau pour les robots humanoïdes. Cependant, la combinaison directe de ces composants entraîne souvent une faible robustesse et efficacité en raison des erreurs cumulatives dans les tâches à long terme et de la latence variable des différents modules. Nous présentons Being-0, un cadre d'agent hiérarchique qui intègre un FM avec une bibliothèque de compétences modulaires. Le FM gère les tâches cognitives de haut niveau telles que la compréhension des instructions, la planification des tâches et le raisonnement, tandis que la bibliothèque de compétences fournit une locomotion stable et une manipulation habile pour le contrôle de bas niveau. Pour combler le fossé entre ces niveaux, nous proposons un nouveau module Connector, alimenté par un modèle vision-langage léger (VLM). Le Connector améliore les capacités incarnées du FM en traduisant les plans basés sur le langage en commandes de compétences actionnables et en coordonnant dynamiquement la locomotion et la manipulation pour améliorer la réussite des tâches. Avec tous les composants, à l'exception du FM, déployables sur des dispositifs de calcul embarqués à faible coût, Being-0 atteint une performance efficace en temps réel sur un robot humanoïde de taille équipé de mains habiles et d'une vision active. Des expériences approfondies dans de grands environnements intérieurs démontrent l'efficacité de Being-0 à résoudre des tâches complexes et à long terme nécessitant des sous-tâches de navigation et de manipulation difficiles. Pour plus de détails et des vidéos, visitez https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level
performance in real-world embodied tasks is an ultimate goal in humanoid robot
research. Recent advances have made significant progress in high-level
cognition with Foundation Models (FMs) and low-level skill development for
humanoid robots. However, directly combining these components often results in
poor robustness and efficiency due to compounding errors in long-horizon tasks
and the varied latency of different modules. We introduce Being-0, a
hierarchical agent framework that integrates an FM with a modular skill
library. The FM handles high-level cognitive tasks such as instruction
understanding, task planning, and reasoning, while the skill library provides
stable locomotion and dexterous manipulation for low-level control. To bridge
the gap between these levels, we propose a novel Connector module, powered by a
lightweight vision-language model (VLM). The Connector enhances the FM's
embodied capabilities by translating language-based plans into actionable skill
commands and dynamically coordinating locomotion and manipulation to improve
task success. With all components, except the FM, deployable on low-cost
onboard computation devices, Being-0 achieves efficient, real-time performance
on a full-sized humanoid robot equipped with dexterous hands and active vision.
Extensive experiments in large indoor environments demonstrate Being-0's
effectiveness in solving complex, long-horizon tasks that require challenging
navigation and manipulation subtasks. For further details and videos, visit
https://beingbeyond.github.io/being-0.Summary
AI-Generated Summary