Being-0: Un Agente Robotico Umanoide con Modelli Visione-Linguaggio e Abilità Modulari

Abstract

Costruire agenti robotici autonomi in grado di raggiungere prestazioni di livello umano in compiti incarnati nel mondo reale rappresenta un obiettivo fondamentale nella ricerca sui robot umanoidi. Recenti progressi hanno portato a significativi avanzamenti nella cognizione di alto livello con i Modelli di Base (Foundation Models, FMs) e nello sviluppo di abilità di basso livello per robot umanoidi. Tuttavia, la combinazione diretta di questi componenti spesso risulta in una scarsa robustezza ed efficienza a causa dell'accumulo di errori in compiti a lungo termine e della variabile latenza dei diversi moduli. Introduciamo Being-0, un framework gerarchico per agenti che integra un FM con una libreria modulare di abilità. Il FM gestisce compiti cognitivi di alto livello come la comprensione delle istruzioni, la pianificazione dei compiti e il ragionamento, mentre la libreria di abilità fornisce una locomozione stabile e una manipolazione abile per il controllo di basso livello. Per colmare il divario tra questi livelli, proponiamo un nuovo modulo Connector, alimentato da un modello visione-linguaggio (VLM) leggero. Il Connector potenzia le capacità incarnate del FM traducendo piani basati sul linguaggio in comandi eseguibili di abilità e coordinando dinamicamente la locomozione e la manipolazione per migliorare il successo dei compiti. Con tutti i componenti, ad eccezione del FM, implementabili su dispositivi di calcolo a basso costo a bordo, Being-0 raggiunge prestazioni efficienti e in tempo reale su un robot umanoide a grandezza naturale dotato di mani abili e visione attiva. Esperimenti estensivi in ambienti interni di grandi dimensioni dimostrano l'efficacia di Being-0 nel risolvere compiti complessi e a lungo termine che richiedono sottocompiti impegnativi di navigazione e manipolazione. Per ulteriori dettagli e video, visitare https://beingbeyond.github.io/being-0.

English

Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Being-0: Un Agente Robotico Umanoide con Modelli Visione-Linguaggio e Abilità Modulari

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

Abstract

Support