ChatPaper.aiChatPaper

Being-0: 비전-언어 모델과 모듈형 기술을 갖춘 휴머노이드 로봇 에이전트

Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills

March 16, 2025
저자: Haoqi Yuan, Yu Bai, Yuhui Fu, Bohan Zhou, Yicheng Feng, Xinrun Xu, Yi Zhan, Börje F. Karlsson, Zongqing Lu
cs.AI

초록

실제 세계에서 인간 수준의 성능을 달성할 수 있는 자율 로봇 에이전트를 구축하는 것은 휴머노이드 로봇 연구의 궁극적인 목표입니다. 최근의 발전으로 인해 Foundation Models(FMs)을 통한 고차원 인지 능력과 휴머노이드 로봇의 저수준 기술 개발에서 상당한 진전이 이루어졌습니다. 그러나 이러한 구성 요소를 직접 결합할 경우, 장기간 작업에서의 오류 누적과 다양한 모듈의 지연 시간으로 인해 견고성과 효율성이 떨어지는 문제가 발생합니다. 우리는 FM과 모듈식 기술 라이브러리를 통합한 계층적 에이전트 프레임워크인 Being-0을 소개합니다. FM은 명령 이해, 작업 계획, 추론과 같은 고차원 인지 작업을 처리하고, 기술 라이브러리는 안정적인 이동과 정교한 조작을 위한 저수준 제어를 제공합니다. 이러한 수준 간의 격차를 해소하기 위해, 경량화된 시각-언어 모델(VLM)로 구동되는 새로운 Connector 모듈을 제안합니다. Connector는 언어 기반 계획을 실행 가능한 기술 명령으로 변환하고, 이동과 조작을 동적으로 조정하여 작업 성공률을 향상시킴으로써 FM의 구체화된 능력을 강화합니다. FM을 제외한 모든 구성 요소는 저비용 온보드 컴퓨팅 장치에 배포 가능하며, Being-0은 정교한 손과 능동적 시각 기능을 갖춘 완전한 크기의 휴머노이드 로봇에서 실시간 성능을 달성합니다. 대규모 실내 환경에서의 광범위한 실험을 통해 Being-0이 도전적인 탐색 및 조작 하위 작업을 요구하는 복잡한 장기간 작업을 해결하는 데 효과적임을 입증했습니다. 자세한 내용과 동영상은 https://beingbeyond.github.io/being-0에서 확인할 수 있습니다.
English
Building autonomous robotic agents capable of achieving human-level performance in real-world embodied tasks is an ultimate goal in humanoid robot research. Recent advances have made significant progress in high-level cognition with Foundation Models (FMs) and low-level skill development for humanoid robots. However, directly combining these components often results in poor robustness and efficiency due to compounding errors in long-horizon tasks and the varied latency of different modules. We introduce Being-0, a hierarchical agent framework that integrates an FM with a modular skill library. The FM handles high-level cognitive tasks such as instruction understanding, task planning, and reasoning, while the skill library provides stable locomotion and dexterous manipulation for low-level control. To bridge the gap between these levels, we propose a novel Connector module, powered by a lightweight vision-language model (VLM). The Connector enhances the FM's embodied capabilities by translating language-based plans into actionable skill commands and dynamically coordinating locomotion and manipulation to improve task success. With all components, except the FM, deployable on low-cost onboard computation devices, Being-0 achieves efficient, real-time performance on a full-sized humanoid robot equipped with dexterous hands and active vision. Extensive experiments in large indoor environments demonstrate Being-0's effectiveness in solving complex, long-horizon tasks that require challenging navigation and manipulation subtasks. For further details and videos, visit https://beingbeyond.github.io/being-0.

Summary

AI-Generated Summary

PDF642March 18, 2025