Rapport Technique GR-3
GR-3 Technical Report
July 21, 2025
papers.authors: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI
papers.abstract
Nous présentons nos récents progrès dans la construction de politiques robotiques généralistes, avec le développement de GR-3. GR-3 est un modèle à grande échelle de vision-langage-action (VLA). Il démontre des capacités exceptionnelles à généraliser à de nouveaux objets, environnements et instructions impliquant des concepts abstraits. De plus, il peut être efficacement affiné avec un minimum de données de trajectoires humaines, permettant une adaptation rapide et économique à de nouveaux contextes. GR-3 excelle également dans la gestion de tâches à long terme et de manipulation dextre, y compris celles nécessitant une manipulation bi-manuelle et des mouvements mobiles, montrant une performance robuste et fiable. Ces capacités sont obtenues grâce à une recette d'entraînement multifacette qui inclut un co-entraînement avec des données vision-langage à l'échelle du web, un affinage efficace à partir de données de trajectoires humaines collectées via des dispositifs de réalité virtuelle, et un apprentissage par imitation efficace avec des données de trajectoires robotiques. En outre, nous introduisons ByteMini, un robot mobile bi-manuel polyvalent conçu avec une flexibilité et une fiabilité exceptionnelles, capable d'accomplir une large gamme de tâches lorsqu'il est intégré à GR-3. À travers de nombreuses expériences en conditions réelles, nous montrons que GR-3 surpasse la méthode de référence actuelle, pi_0, sur une grande variété de tâches complexes. Nous espérons que GR-3 pourra constituer une étape vers la construction de robots généralistes capables d'assister les humains dans la vie quotidienne.
English
We report our recent progress towards building generalist robot policies, the
development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model.
It showcases exceptional capabilities in generalizing to novel objects,
environments, and instructions involving abstract concepts. Furthermore, it can
be efficiently fine-tuned with minimal human trajectory data, enabling rapid
and cost-effective adaptation to new settings. GR-3 also excels in handling
long-horizon and dexterous tasks, including those requiring bi-manual
manipulation and mobile movement, showcasing robust and reliable performance.
These capabilities are achieved through a multi-faceted training recipe that
includes co-training with web-scale vision-language data, efficient fine-tuning
from human trajectory data collected via VR devices, and effective imitation
learning with robot trajectory data. In addition, we introduce ByteMini, a
versatile bi-manual mobile robot designed with exceptional flexibility and
reliability, capable of accomplishing a wide range of tasks when integrated
with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the
state-of-the-art baseline method, pi_0, on a wide variety of challenging
tasks. We hope GR-3 can serve as a step towards building generalist robots
capable of assisting humans in daily life.