Being-0: Ein humanoider Roboteragent mit Vision-Sprache-Modellen und modularen Fähigkeiten
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
March 16, 2025
Autoren: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI
Zusammenfassung
Die Entwicklung autonomer Roboteragenten, die in der Lage sind, menschliche Leistungsfähigkeit in realen verkörperten Aufgaben zu erreichen, ist ein ultimatives Ziel in der Forschung zu humanoiden Robotern. Jüngste Fortschritte haben bedeutende Verbesserungen in der hochgradigen Kognition mit Foundation Models (FMs) und in der Entwicklung von grundlegenden Fähigkeiten für humanoide Roboter erzielt. Die direkte Kombination dieser Komponenten führt jedoch oft zu mangelnder Robustheit und Effizienz, was auf die Kumulation von Fehlern in langfristigen Aufgaben und die unterschiedliche Latenz verschiedener Module zurückzuführen ist. Wir stellen Being-0 vor, ein hierarchisches Agenten-Framework, das ein FM mit einer modularen Fähigkeitsbibliothek integriert. Das FM übernimmt hochgradige kognitive Aufgaben wie das Verstehen von Anweisungen, die Aufgabenplanung und das logische Denken, während die Fähigkeitsbibliothek stabile Fortbewegung und geschickte Manipulation für die grundlegende Steuerung bereitstellt. Um die Lücke zwischen diesen Ebenen zu schließen, schlagen wir ein neuartiges Connector-Modul vor, das von einem leichten Vision-Language-Modell (VLM) angetrieben wird. Der Connector verbessert die verkörperten Fähigkeiten des FMs, indem er sprachbasierte Pläne in ausführbare Fähigkeitsbefehle übersetzt und die Fortbewegung und Manipulation dynamisch koordiniert, um den Aufgaben-Erfolg zu steigern. Da alle Komponenten, außer dem FM, auf kostengünstigen Onboard-Rechengeräten einsetzbar sind, erreicht Being-0 eine effiziente, Echtzeit-Leistung auf einem vollständig ausgestatteten humanoiden Roboter mit geschickten Händen und aktiver Sehfähigkeit. Umfangreiche Experimente in großen Innenräumen demonstrieren die Effektivität von Being-0 bei der Lösung komplexer, langfristiger Aufgaben, die anspruchsvolle Navigations- und Manipulationsunteraufgaben erfordern. Weitere Details und Videos finden Sie unter https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level
performance in real-world embodied tasks is an ultimate goal in humanoid robot
research. Recent advances have made significant progress in high-level
cognition with Foundation Models (FMs) and low-level skill development for
humanoid robots. However, directly combining these components often results in
poor robustness and efficiency due to compounding errors in long-horizon tasks
and the varied latency of different modules. We introduce Being-0, a
hierarchical agent framework that integrates an FM with a modular skill
library. The FM handles high-level cognitive tasks such as instruction
understanding, task planning, and reasoning, while the skill library provides
stable locomotion and dexterous manipulation for low-level control. To bridge
the gap between these levels, we propose a novel Connector module, powered by a
lightweight vision-language model (VLM). The Connector enhances the FM's
embodied capabilities by translating language-based plans into actionable skill
commands and dynamically coordinating locomotion and manipulation to improve
task success. With all components, except the FM, deployable on low-cost
onboard computation devices, Being-0 achieves efficient, real-time performance
on a full-sized humanoid robot equipped with dexterous hands and active vision.
Extensive experiments in large indoor environments demonstrate Being-0's
effectiveness in solving complex, long-horizon tasks that require challenging
navigation and manipulation subtasks. For further details and videos, visit
https://beingbeyond.github.io/being-0.Summary
AI-Generated Summary