Rapporto Tecnico GR-3
GR-3 Technical Report
July 21, 2025
Autori: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI
Abstract
Riportiamo i recenti progressi verso la costruzione di politiche robotiche generaliste, con lo sviluppo di GR-3. GR-3 è un modello su larga scala visione-linguaggio-azione (VLA). Dimostra capacità eccezionali nel generalizzare a nuovi oggetti, ambienti e istruzioni che coinvolgono concetti astratti. Inoltre, può essere efficientemente adattato con un minimo di dati di traiettoria umana, consentendo un adattamento rapido ed economico a nuovi contesti. GR-3 eccelle anche nella gestione di compiti a lungo termine e di destrezza, inclusi quelli che richiedono manipolazione bi-manuale e movimento mobile, mostrando prestazioni robuste e affidabili. Queste capacità sono raggiunte attraverso una ricetta di formazione multifaccettata che include co-addestramento con dati visione-linguaggio su scala web, adattamento efficiente da dati di traiettoria umana raccolti tramite dispositivi VR e apprendimento per imitazione efficace con dati di traiettoria robotica. Inoltre, introduciamo ByteMini, un robot mobile bi-manuale versatile progettato con flessibilità e affidabilità eccezionali, in grado di realizzare un'ampia gamma di compiti quando integrato con GR-3. Attraverso estesi esperimenti nel mondo reale, dimostriamo che GR-3 supera il metodo di riferimento state-of-the-art, pi_0, in una vasta gamma di compiti impegnativi. Speriamo che GR-3 possa rappresentare un passo verso la costruzione di robot generalisti capaci di assistere gli esseri umani nella vita quotidiana.
English
We report our recent progress towards building generalist robot policies, the
development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model.
It showcases exceptional capabilities in generalizing to novel objects,
environments, and instructions involving abstract concepts. Furthermore, it can
be efficiently fine-tuned with minimal human trajectory data, enabling rapid
and cost-effective adaptation to new settings. GR-3 also excels in handling
long-horizon and dexterous tasks, including those requiring bi-manual
manipulation and mobile movement, showcasing robust and reliable performance.
These capabilities are achieved through a multi-faceted training recipe that
includes co-training with web-scale vision-language data, efficient fine-tuning
from human trajectory data collected via VR devices, and effective imitation
learning with robot trajectory data. In addition, we introduce ByteMini, a
versatile bi-manual mobile robot designed with exceptional flexibility and
reliability, capable of accomplishing a wide range of tasks when integrated
with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the
state-of-the-art baseline method, pi_0, on a wide variety of challenging
tasks. We hope GR-3 can serve as a step towards building generalist robots
capable of assisting humans in daily life.