ChatPaper.aiChatPaper

GR-3 Technischer Bericht

GR-3 Technical Report

July 21, 2025
papers.authors: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI

papers.abstract

Wir berichten über unsere jüngsten Fortschritte bei der Entwicklung von generalistischen Roboterpolitiken, insbesondere die Entwicklung von GR-3. GR-3 ist ein großskaliges Vision-Language-Action (VLA)-Modell. Es zeigt außergewöhnliche Fähigkeiten bei der Generalisierung auf neue Objekte, Umgebungen und Anweisungen, die abstrakte Konzepte beinhalten. Darüber hinaus kann es effizient mit minimalen menschlichen Trajektoriedaten feinabgestimmt werden, was eine schnelle und kosteneffiziente Anpassung an neue Umgebungen ermöglicht. GR-3 zeichnet sich auch bei der Bewältigung langfristiger und geschickter Aufgaben aus, einschließlich solcher, die bimanuelle Manipulation und mobile Bewegung erfordern, und zeigt dabei eine robuste und zuverlässige Leistung. Diese Fähigkeiten werden durch ein vielseitiges Trainingsrezept erreicht, das Co-Training mit web-skaligen Vision-Language-Daten, effizientes Feinabstimmen aus menschlichen Trajektoriedaten, die über VR-Geräte gesammelt wurden, und effektives Imitationslernen mit Roboter-Trajektoriedaten umfasst. Zusätzlich stellen wir ByteMini vor, einen vielseitigen bimanuellen mobilen Roboter, der mit außergewöhnlicher Flexibilität und Zuverlässigkeit entwickelt wurde und in der Lage ist, eine Vielzahl von Aufgaben zu erfüllen, wenn er mit GR-3 integriert wird. Durch umfangreiche Experimente in der realen Welt zeigen wir, dass GR-3 die state-of-the-art Baseline-Methode pi_0 bei einer Vielzahl von anspruchsvollen Aufgaben übertrifft. Wir hoffen, dass GR-3 als Schritt hin zur Entwicklung von generalistischen Robotern dienen kann, die in der Lage sind, Menschen im täglichen Leben zu unterstützen.
English
We report our recent progress towards building generalist robot policies, the development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model. It showcases exceptional capabilities in generalizing to novel objects, environments, and instructions involving abstract concepts. Furthermore, it can be efficiently fine-tuned with minimal human trajectory data, enabling rapid and cost-effective adaptation to new settings. GR-3 also excels in handling long-horizon and dexterous tasks, including those requiring bi-manual manipulation and mobile movement, showcasing robust and reliable performance. These capabilities are achieved through a multi-faceted training recipe that includes co-training with web-scale vision-language data, efficient fine-tuning from human trajectory data collected via VR devices, and effective imitation learning with robot trajectory data. In addition, we introduce ByteMini, a versatile bi-manual mobile robot designed with exceptional flexibility and reliability, capable of accomplishing a wide range of tasks when integrated with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the state-of-the-art baseline method, pi_0, on a wide variety of challenging tasks. We hope GR-3 can serve as a step towards building generalist robots capable of assisting humans in daily life.
PDF402July 22, 2025