ChatPaper.aiChatPaper

Informe Técnico GR-3

GR-3 Technical Report

July 21, 2025
Autores: Chilam Cheang, Sijin Chen, Zhongren Cui, Yingdong Hu, Liqun Huang, Tao Kong, Hang Li, Yifeng Li, Yuxiao Liu, Xiao Ma, Hao Niu, Wenxuan Ou, Wanli Peng, Zeyu Ren, Haixin Shi, Jiawen Tian, Hongtao Wu, Xin Xiao, Yuyang Xiao, Jiafeng Xu, Yichu Yang
cs.AI

Resumen

Informamos sobre nuestro reciente progreso hacia la construcción de políticas robóticas generalistas, con el desarrollo de GR-3. GR-3 es un modelo a gran escala de visión-lenguaje-acción (VLA). Demuestra capacidades excepcionales para generalizar en objetos, entornos e instrucciones novedosas que involucran conceptos abstractos. Además, puede ajustarse eficientemente con un mínimo de datos de trayectorias humanas, permitiendo una adaptación rápida y rentable a nuevos entornos. GR-3 también destaca en la ejecución de tareas de largo alcance y destreza, incluyendo aquellas que requieren manipulación bimanual y movimiento móvil, mostrando un rendimiento robusto y confiable. Estas capacidades se logran mediante una receta de entrenamiento multifacética que incluye co-entrenamiento con datos de visión-lenguaje a escala web, ajuste fino eficiente a partir de datos de trayectorias humanas recolectados mediante dispositivos de realidad virtual, y aprendizaje por imitación efectivo con datos de trayectorias robóticas. Además, presentamos ByteMini, un robot móvil bimanual versátil diseñado con una flexibilidad y fiabilidad excepcionales, capaz de realizar una amplia gama de tareas cuando se integra con GR-3. A través de extensos experimentos en el mundo real, demostramos que GR-3 supera al método de referencia más avanzado, pi_0, en una amplia variedad de tareas desafiantes. Esperamos que GR-3 pueda servir como un paso hacia la construcción de robots generalistas capaces de asistir a los humanos en la vida diaria.
English
We report our recent progress towards building generalist robot policies, the development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model. It showcases exceptional capabilities in generalizing to novel objects, environments, and instructions involving abstract concepts. Furthermore, it can be efficiently fine-tuned with minimal human trajectory data, enabling rapid and cost-effective adaptation to new settings. GR-3 also excels in handling long-horizon and dexterous tasks, including those requiring bi-manual manipulation and mobile movement, showcasing robust and reliable performance. These capabilities are achieved through a multi-faceted training recipe that includes co-training with web-scale vision-language data, efficient fine-tuning from human trajectory data collected via VR devices, and effective imitation learning with robot trajectory data. In addition, we introduce ByteMini, a versatile bi-manual mobile robot designed with exceptional flexibility and reliability, capable of accomplishing a wide range of tasks when integrated with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the state-of-the-art baseline method, pi_0, on a wide variety of challenging tasks. We hope GR-3 can serve as a step towards building generalist robots capable of assisting humans in daily life.
PDF402July 22, 2025