Being-0: Een humanoïde robotagent met vision-language modellen en modulaire vaardigheden
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
March 16, 2025
Auteurs: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI
Samenvatting
Het ontwikkelen van autonome robotische agents die menselijk niveau kunnen bereiken in real-world belichaamde taken is een ultiem doel in het onderzoek naar humanoïde robots. Recente vooruitgang heeft aanzienlijke voortgang geboekt in hoogwaardige cognitie met Foundation Models (FM's) en de ontwikkeling van basale vaardigheden voor humanoïde robots. Het direct combineren van deze componenten resulteert echter vaak in slechte robuustheid en efficiëntie vanwege opstapelende fouten in langetermijntaken en de uiteenlopende latentie van verschillende modules. Wij introduceren Being-0, een hiërarchisch agentframework dat een FM integreert met een modulaire vaardighedenbibliotheek. De FM behandelt hoogwaardige cognitieve taken zoals instructiebegrip, taakplanning en redenering, terwijl de vaardighedenbibliotheek stabiele voortbeweging en behendige manipulatie biedt voor basale controle. Om de kloof tussen deze niveaus te overbruggen, stellen we een nieuwe Connector-module voor, aangedreven door een lichtgewicht vision-language model (VLM). De Connector versterkt de belichaamde capaciteiten van de FM door taalgebaseerde plannen om te zetten in uitvoerbare vaardigheidscommando's en door voortbeweging en manipulatie dynamisch te coördineren om de taaksucceskans te vergroten. Met alle componenten, behalve de FM, die op goedkope onboard rekenapparaten kunnen worden geïmplementeerd, bereikt Being-0 efficiënte, real-time prestaties op een volledige humanoïde robot uitgerust met behendige handen en actief zicht. Uitgebreide experimenten in grote binnenomgevingen demonstreren de effectiviteit van Being-0 in het oplossen van complexe, langetermijntaken die uitdagende navigatie- en manipulatiesubtaken vereisen. Voor meer details en video's, bezoek https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level
performance in real-world embodied tasks is an ultimate goal in humanoid robot
research. Recent advances have made significant progress in high-level
cognition with Foundation Models (FMs) and low-level skill development for
humanoid robots. However, directly combining these components often results in
poor robustness and efficiency due to compounding errors in long-horizon tasks
and the varied latency of different modules. We introduce Being-0, a
hierarchical agent framework that integrates an FM with a modular skill
library. The FM handles high-level cognitive tasks such as instruction
understanding, task planning, and reasoning, while the skill library provides
stable locomotion and dexterous manipulation for low-level control. To bridge
the gap between these levels, we propose a novel Connector module, powered by a
lightweight vision-language model (VLM). The Connector enhances the FM's
embodied capabilities by translating language-based plans into actionable skill
commands and dynamically coordinating locomotion and manipulation to improve
task success. With all components, except the FM, deployable on low-cost
onboard computation devices, Being-0 achieves efficient, real-time performance
on a full-sized humanoid robot equipped with dexterous hands and active vision.
Extensive experiments in large indoor environments demonstrate Being-0's
effectiveness in solving complex, long-horizon tasks that require challenging
navigation and manipulation subtasks. For further details and videos, visit
https://beingbeyond.github.io/being-0.Summary
AI-Generated Summary