Being-0: Un Agente Robotico Umanoide con Modelli Visione-Linguaggio e Abilità Modulari
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills
March 16, 2025
Autori: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI
Abstract
Costruire agenti robotici autonomi in grado di raggiungere prestazioni di livello umano in compiti incarnati nel mondo reale rappresenta un obiettivo fondamentale nella ricerca sui robot umanoidi. Recenti progressi hanno portato a significativi avanzamenti nella cognizione di alto livello con i Modelli di Base (Foundation Models, FMs) e nello sviluppo di abilità di basso livello per robot umanoidi. Tuttavia, la combinazione diretta di questi componenti spesso risulta in una scarsa robustezza ed efficienza a causa dell'accumulo di errori in compiti a lungo termine e della variabile latenza dei diversi moduli. Introduciamo Being-0, un framework gerarchico per agenti che integra un FM con una libreria modulare di abilità. Il FM gestisce compiti cognitivi di alto livello come la comprensione delle istruzioni, la pianificazione dei compiti e il ragionamento, mentre la libreria di abilità fornisce una locomozione stabile e una manipolazione abile per il controllo di basso livello. Per colmare il divario tra questi livelli, proponiamo un nuovo modulo Connector, alimentato da un modello visione-linguaggio (VLM) leggero. Il Connector potenzia le capacità incarnate del FM traducendo piani basati sul linguaggio in comandi eseguibili di abilità e coordinando dinamicamente la locomozione e la manipolazione per migliorare il successo dei compiti. Con tutti i componenti, ad eccezione del FM, implementabili su dispositivi di calcolo a basso costo a bordo, Being-0 raggiunge prestazioni efficienti e in tempo reale su un robot umanoide a grandezza naturale dotato di mani abili e visione attiva. Esperimenti estensivi in ambienti interni di grandi dimensioni dimostrano l'efficacia di Being-0 nel risolvere compiti complessi e a lungo termine che richiedono sottocompiti impegnativi di navigazione e manipolazione. Per ulteriori dettagli e video, visitare https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level
performance in real-world embodied tasks is an ultimate goal in humanoid robot
research. Recent advances have made significant progress in high-level
cognition with Foundation Models (FMs) and low-level skill development for
humanoid robots. However, directly combining these components often results in
poor robustness and efficiency due to compounding errors in long-horizon tasks
and the varied latency of different modules. We introduce Being-0, a
hierarchical agent framework that integrates an FM with a modular skill
library. The FM handles high-level cognitive tasks such as instruction
understanding, task planning, and reasoning, while the skill library provides
stable locomotion and dexterous manipulation for low-level control. To bridge
the gap between these levels, we propose a novel Connector module, powered by a
lightweight vision-language model (VLM). The Connector enhances the FM's
embodied capabilities by translating language-based plans into actionable skill
commands and dynamically coordinating locomotion and manipulation to improve
task success. With all components, except the FM, deployable on low-cost
onboard computation devices, Being-0 achieves efficient, real-time performance
on a full-sized humanoid robot equipped with dexterous hands and active vision.
Extensive experiments in large indoor environments demonstrate Being-0's
effectiveness in solving complex, long-horizon tasks that require challenging
navigation and manipulation subtasks. For further details and videos, visit
https://beingbeyond.github.io/being-0.