GR-3 Technisch Rapport
GR-3 Technical Report
July 21, 2025
Auteurs: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI
Samenvatting
We rapporteren onze recente voortgang in het ontwikkelen van generalistische robotbeleidsmodellen, met de ontwikkeling van GR-3. GR-3 is een grootschalig vision-language-action (VLA) model. Het toont uitzonderlijke mogelijkheden in het generaliseren naar nieuwe objecten, omgevingen en instructies die abstracte concepten omvatten. Bovendien kan het efficiënt worden afgestemd met minimale menselijke trajectgegevens, waardoor snelle en kosteneffectieve aanpassing aan nieuwe situaties mogelijk is. GR-3 blinkt ook uit in het uitvoeren van langetermijn- en behendigheidstaken, inclusief taken die bi-manipulatie en mobiele beweging vereisen, en toont robuuste en betrouwbare prestaties. Deze mogelijkheden worden bereikt door een veelzijdig trainingsrecept dat co-training met web-schaal vision-language gegevens, efficiënte afstemming van menselijke trajectgegevens verzameld via VR-apparaten, en effectieve imitatieleren met robottrajectgegevens omvat. Daarnaast introduceren we ByteMini, een veelzijdige bi-manuele mobiele robot die is ontworpen met uitzonderlijke flexibiliteit en betrouwbaarheid, en die in staat is een breed scala aan taken uit te voeren wanneer geïntegreerd met GR-3. Door uitgebreide experimenten in de echte wereld tonen we aan dat GR-3 de state-of-the-art baseline-methode, pi_0, overtreft op een breed scala aan uitdagende taken. We hopen dat GR-3 een stap kan zijn in de richting van het bouwen van generalistische robots die mensen kunnen assisteren in het dagelijks leven.
English
We report our recent progress towards building generalist robot policies, the
development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model.
It showcases exceptional capabilities in generalizing to novel objects,
environments, and instructions involving abstract concepts. Furthermore, it can
be efficiently fine-tuned with minimal human trajectory data, enabling rapid
and cost-effective adaptation to new settings. GR-3 also excels in handling
long-horizon and dexterous tasks, including those requiring bi-manual
manipulation and mobile movement, showcasing robust and reliable performance.
These capabilities are achieved through a multi-faceted training recipe that
includes co-training with web-scale vision-language data, efficient fine-tuning
from human trajectory data collected via VR devices, and effective imitation
learning with robot trajectory data. In addition, we introduce ByteMini, a
versatile bi-manual mobile robot designed with exceptional flexibility and
reliability, capable of accomplishing a wide range of tasks when integrated
with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the
state-of-the-art baseline method, pi_0, on a wide variety of challenging
tasks. We hope GR-3 can serve as a step towards building generalist robots
capable of assisting humans in daily life.