Being-0 : Un agent robotique humanoïde doté de modèles vision-langage et de compétences modulaires

papers.abstract

La construction d'agents robotiques autonomes capables d'atteindre des performances de niveau humain dans des tâches incarnées du monde réel constitue un objectif ultime dans la recherche sur les robots humanoïdes. Les avancées récentes ont permis des progrès significatifs dans la cognition de haut niveau avec les Modèles Fondamentaux (FMs) et dans le développement de compétences de bas niveau pour les robots humanoïdes. Cependant, la combinaison directe de ces composants entraîne souvent une faible robustesse et efficacité en raison des erreurs cumulatives dans les tâches à long terme et de la latence variable des différents modules. Nous présentons Being-0, un cadre d'agent hiérarchique qui intègre un FM avec une bibliothèque de compétences modulaires. Le FM gère les tâches cognitives de haut niveau telles que la compréhension des instructions, la planification des tâches et le raisonnement, tandis que la bibliothèque de compétences fournit une locomotion stable et une manipulation habile pour le contrôle de bas niveau. Pour combler le fossé entre ces niveaux, nous proposons un nouveau module Connector, alimenté par un modèle vision-langage léger (VLM). Le Connector améliore les capacités incarnées du FM en traduisant les plans basés sur le langage en commandes de compétences actionnables et en coordonnant dynamiquement la locomotion et la manipulation pour améliorer la réussite des tâches. Avec tous les composants, à l'exception du FM, déployables sur des dispositifs de calcul embarqués à faible coût, Being-0 atteint une performance efficace en temps réel sur un robot humanoïde de taille équipé de mains habiles et d'une vision active. Des expériences approfondies dans de grands environnements intérieurs démontrent l'efficacité de Being-0 à résoudre des tâches complexes et à long terme nécessitant des sous-tâches de navigation et de manipulation difficiles. Pour plus de détails et des vidéos, visitez https://beingbeyond.github.io/being-0.

English

Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Being-0 : Un agent robotique humanoïde doté de modèles vision-langage et de compétences modulaires

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

papers.abstract

Support