ChatPaper.aiChatPaper

GR-3 기술 보고서

GR-3 Technical Report

July 21, 2025
저자: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI

초록

우리는 범용 로봇 정책 구축을 위한 최근 연구 성과인 GR-3의 개발을 보고한다. GR-3은 대규모 시각-언어-행동(VLA) 모델로, 새로운 객체, 환경 및 추상 개념을 포함한 지시에 대한 탁월한 일반화 능력을 보여준다. 또한, 최소한의 인간 궤적 데이터로 효율적으로 미세 조정이 가능하여 새로운 환경에 빠르고 경제적으로 적응할 수 있다. GR-3은 양손 조작 및 이동이 필요한 장기적이고 정교한 작업에서도 뛰어난 성능을 발휘하며, 견고하고 신뢰할 수 있는 성능을 보여준다. 이러한 능력은 웹 규모의 시각-언어 데이터와의 공동 학습, VR 장치를 통해 수집된 인간 궤적 데이터를 이용한 효율적인 미세 조정, 로봇 궤적 데이터를 활용한 효과적인 모방 학습을 포함한 다각적인 학습 방법을 통해 달성되었다. 또한, GR-3과 통합 시 다양한 작업을 수행할 수 있는 탁월한 유연성과 신뢰성을 갖춘 다목적 양손 이동 로봇인 ByteMini를 소개한다. 광범위한 실험을 통해 GR-3이 다양한 도전적인 작업에서 최신 기준 방법인 pi_0을 능가함을 보여준다. 우리는 GR-3이 일상 생활에서 인간을 지원할 수 있는 범용 로봇 구축을 위한 한 걸음이 되기를 기대한다.
English
We report our recent progress towards building generalist robot policies, the development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model. It showcases exceptional capabilities in generalizing to novel objects, environments, and instructions involving abstract concepts. Furthermore, it can be efficiently fine-tuned with minimal human trajectory data, enabling rapid and cost-effective adaptation to new settings. GR-3 also excels in handling long-horizon and dexterous tasks, including those requiring bi-manual manipulation and mobile movement, showcasing robust and reliable performance. These capabilities are achieved through a multi-faceted training recipe that includes co-training with web-scale vision-language data, efficient fine-tuning from human trajectory data collected via VR devices, and effective imitation learning with robot trajectory data. In addition, we introduce ByteMini, a versatile bi-manual mobile robot designed with exceptional flexibility and reliability, capable of accomplishing a wide range of tasks when integrated with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the state-of-the-art baseline method, pi_0, on a wide variety of challenging tasks. We hope GR-3 can serve as a step towards building generalist robots capable of assisting humans in daily life.
PDF402July 22, 2025