Being-0: Een humanoïde robotagent met vision-language modellen en modulaire vaardigheden

Samenvatting

Het ontwikkelen van autonome robotische agents die menselijk niveau kunnen bereiken in real-world belichaamde taken is een ultiem doel in het onderzoek naar humanoïde robots. Recente vooruitgang heeft aanzienlijke voortgang geboekt in hoogwaardige cognitie met Foundation Models (FM's) en de ontwikkeling van basale vaardigheden voor humanoïde robots. Het direct combineren van deze componenten resulteert echter vaak in slechte robuustheid en efficiëntie vanwege opstapelende fouten in langetermijntaken en de uiteenlopende latentie van verschillende modules. Wij introduceren Being-0, een hiërarchisch agentframework dat een FM integreert met een modulaire vaardighedenbibliotheek. De FM behandelt hoogwaardige cognitieve taken zoals instructiebegrip, taakplanning en redenering, terwijl de vaardighedenbibliotheek stabiele voortbeweging en behendige manipulatie biedt voor basale controle. Om de kloof tussen deze niveaus te overbruggen, stellen we een nieuwe Connector-module voor, aangedreven door een lichtgewicht vision-language model (VLM). De Connector versterkt de belichaamde capaciteiten van de FM door taalgebaseerde plannen om te zetten in uitvoerbare vaardigheidscommando's en door voortbeweging en manipulatie dynamisch te coördineren om de taaksucceskans te vergroten. Met alle componenten, behalve de FM, die op goedkope onboard rekenapparaten kunnen worden geïmplementeerd, bereikt Being-0 efficiënte, real-time prestaties op een volledige humanoïde robot uitgerust met behendige handen en actief zicht. Uitgebreide experimenten in grote binnenomgevingen demonstreren de effectiviteit van Being-0 in het oplossen van complexe, langetermijntaken die uitdagende navigatie- en manipulatiesubtaken vereisen. Voor meer details en video's, bezoek https://beingbeyond.github.io/being-0.

English

Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Being-0: Een humanoïde robotagent met vision-language modellen en modulaire vaardigheden

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Samenvatting

Support