ChatPaper.aiChatPaper

GigaBrain-0: 세계 모델 기반 시각-언어-행동 통합 모델

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

October 22, 2025
저자: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu
cs.AI

초록

일반적인 로봇을 위한 Vision-Language-Action (VLA) 모델을 훈련시키는 데는 일반적으로 대규모의 실제 로봇 데이터가 필요하며, 이를 수집하는 데는 비용과 시간이 많이 듭니다. 물리적 데이터 수집의 비효율성은 현재 VLA 시스템의 확장성과 일반화 능력을 심각하게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 세계 모델에서 생성된 데이터(예: 비디오 생성, real2real 전이, 인간 전이, 시점 전이, sim2real 전이 데이터)를 활용한 새로운 VLA 기반 모델인 GigaBrain-0를 소개합니다. 세계 모델을 통해 대규모로 다양한 데이터를 생성함으로써, GigaBrain-0는 실제 로봇 데이터에 대한 의존도를 크게 줄이면서도 작업 간 일반화 능력을 향상시킵니다. 우리의 접근 방식은 RGBD 입력 모델링과 체화된 Chain-of-Thought (CoT) 감독을 통해 정책의 견고성을 더욱 개선하여, 모델이 작업 실행 중 공간 기하학, 객체 상태, 장기적 의존성을 추론할 수 있도록 합니다. 이는 민첩한 작업, 장기적 작업, 이동 조작 작업에서 실제 성능의 상당한 향상으로 이어집니다. 광범위한 실험을 통해 GigaBrain-0가 외관(예: 질감, 색상), 객체 배치, 카메라 시점의 변화에 걸쳐 우수한 일반화 능력을 달성함을 입증했습니다. 또한, NVIDIA Jetson AGX Orin과 같은 장치에서 효율적으로 실행되도록 최적화된 경량 버전인 GigaBrain-0-Small을 제시합니다.
English
Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.
PDF304October 23, 2025