Технический отчет GR-3
GR-3 Technical Report
July 21, 2025
Авторы: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI
Аннотация
Мы сообщаем о наших последних достижениях в создании универсальных роботизированных политик, а именно о разработке модели GR-3. GR-3 представляет собой крупномасштабную модель, объединяющую зрение, язык и действия (VLA). Она демонстрирует выдающиеся способности к обобщению при работе с новыми объектами, окружениями и инструкциями, включающими абстрактные концепции. Кроме того, модель может быть эффективно дообучена с использованием минимального количества данных о траекториях, собранных человеком, что позволяет быстро и экономично адаптироваться к новым условиям. GR-3 также превосходно справляется с задачами, требующими долгосрочного планирования и высокой точности, включая задачи, связанные с двуручным манипулированием и мобильным перемещением, демонстрируя устойчивую и надежную производительность. Эти возможности достигаются благодаря многоаспектной методике обучения, которая включает совместное обучение с использованием веб-данных для зрения и языка, эффективное дообучение на основе данных о траекториях, собранных с помощью VR-устройств, и результативное имитационное обучение с использованием данных о траекториях робота. Кроме того, мы представляем ByteMini — универсального мобильного робота с двуручным манипулированием, обладающего исключительной гибкостью и надежностью, способного выполнять широкий спектр задач при интеграции с GR-3. В ходе многочисленных экспериментов в реальных условиях мы показываем, что GR-3 превосходит современный базовый метод pi_0 в решении разнообразных сложных задач. Мы надеемся, что GR-3 станет шагом на пути к созданию универсальных роботов, способных помогать людям в повседневной жизни.
English
We report our recent progress towards building generalist robot policies, the
development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model.
It showcases exceptional capabilities in generalizing to novel objects,
environments, and instructions involving abstract concepts. Furthermore, it can
be efficiently fine-tuned with minimal human trajectory data, enabling rapid
and cost-effective adaptation to new settings. GR-3 also excels in handling
long-horizon and dexterous tasks, including those requiring bi-manual
manipulation and mobile movement, showcasing robust and reliable performance.
These capabilities are achieved through a multi-faceted training recipe that
includes co-training with web-scale vision-language data, efficient fine-tuning
from human trajectory data collected via VR devices, and effective imitation
learning with robot trajectory data. In addition, we introduce ByteMini, a
versatile bi-manual mobile robot designed with exceptional flexibility and
reliability, capable of accomplishing a wide range of tasks when integrated
with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the
state-of-the-art baseline method, pi_0, on a wide variety of challenging
tasks. We hope GR-3 can serve as a step towards building generalist robots
capable of assisting humans in daily life.