Relatório Técnico GR-3
GR-3 Technical Report
July 21, 2025
Autores: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI
Resumo
Relatamos nosso progresso recente na construção de políticas robóticas generalistas, com o desenvolvimento do GR-3. O GR-3 é um modelo de grande escala que integra visão, linguagem e ação (VLA). Ele demonstra capacidades excepcionais em generalizar para novos objetos, ambientes e instruções envolvendo conceitos abstratos. Além disso, pode ser ajustado de forma eficiente com um mínimo de dados de trajetória humana, permitindo uma adaptação rápida e econômica a novos cenários. O GR-3 também se destaca no tratamento de tarefas de longo prazo e de alta destreza, incluindo aquelas que exigem manipulação bimanual e movimento móvel, mostrando um desempenho robusto e confiável. Essas capacidades são alcançadas por meio de uma abordagem de treinamento multifacetada, que inclui co-treinamento com dados de visão e linguagem em escala da web, ajuste fino eficiente a partir de dados de trajetória humana coletados por dispositivos de realidade virtual e aprendizado por imitação eficaz com dados de trajetória robótica. Além disso, apresentamos o ByteMini, um robô móvel bimanual versátil projetado com flexibilidade e confiabilidade excepcionais, capaz de realizar uma ampla gama de tarefas quando integrado ao GR-3. Por meio de extensos experimentos no mundo real, mostramos que o GR-3 supera o método de referência state-of-the-art, pi_0, em uma variedade de tarefas desafiadoras. Esperamos que o GR-3 possa servir como um passo em direção à construção de robôs generalistas capazes de auxiliar os humanos no dia a dia.
English
We report our recent progress towards building generalist robot policies, the
development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model.
It showcases exceptional capabilities in generalizing to novel objects,
environments, and instructions involving abstract concepts. Furthermore, it can
be efficiently fine-tuned with minimal human trajectory data, enabling rapid
and cost-effective adaptation to new settings. GR-3 also excels in handling
long-horizon and dexterous tasks, including those requiring bi-manual
manipulation and mobile movement, showcasing robust and reliable performance.
These capabilities are achieved through a multi-faceted training recipe that
includes co-training with web-scale vision-language data, efficient fine-tuning
from human trajectory data collected via VR devices, and effective imitation
learning with robot trajectory data. In addition, we introduce ByteMini, a
versatile bi-manual mobile robot designed with exceptional flexibility and
reliability, capable of accomplishing a wide range of tasks when integrated
with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the
state-of-the-art baseline method, pi_0, on a wide variety of challenging
tasks. We hope GR-3 can serve as a step towards building generalist robots
capable of assisting humans in daily life.