ChatPaper.aiChatPaper

Being-0: Um Agente Robótico Humanoide com Modelos Visão-Linguagem e Habilidades Modulares

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

March 16, 2025
Autores: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI

Resumo

Construir agentes robóticos autônomos capazes de alcançar desempenho em nível humano em tarefas corporificadas do mundo real é um objetivo final na pesquisa de robótica humanóide. Avanços recentes têm feito progressos significativos em cognição de alto nível com Modelos de Base (Foundation Models - FMs) e no desenvolvimento de habilidades de baixo nível para robôs humanóides. No entanto, a combinação direta desses componentes frequentemente resulta em baixa robustez e eficiência devido à acumulação de erros em tarefas de longo prazo e à latência variada de diferentes módulos. Apresentamos o Being-0, uma estrutura hierárquica de agentes que integra um FM com uma biblioteca modular de habilidades. O FM lida com tarefas cognitivas de alto nível, como compreensão de instruções, planejamento de tarefas e raciocínio, enquanto a biblioteca de habilidades fornece locomoção estável e manipulação hábil para controle de baixo nível. Para preencher a lacuna entre esses níveis, propomos um novo módulo Conector, alimentado por um modelo leve de visão e linguagem (Vision-Language Model - VLM). O Conector amplia as capacidades corporificadas do FM ao traduzir planos baseados em linguagem em comandos de habilidades acionáveis e coordenar dinamicamente a locomoção e a manipulação para melhorar o sucesso da tarefa. Com todos os componentes, exceto o FM, implantáveis em dispositivos de computação embarcados de baixo custo, o Being-0 alcança desempenho eficiente e em tempo real em um robô humanóide de tamanho real equipado com mãos hábeis e visão ativa. Experimentos extensos em grandes ambientes internos demonstram a eficácia do Being-0 na resolução de tarefas complexas e de longo prazo que exigem subtarefas desafiadoras de navegação e manipulação. Para mais detalhes e vídeos, visite https://beingbeyond.github.io/being-0.
English
Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Summary

AI-Generated Summary

PDF642March 18, 2025