Informe Técnico GR-3

Resumen

Informamos sobre nuestro reciente progreso hacia la construcción de políticas robóticas generalistas, con el desarrollo de GR-3. GR-3 es un modelo a gran escala de visión-lenguaje-acción (VLA). Demuestra capacidades excepcionales para generalizar en objetos, entornos e instrucciones novedosas que involucran conceptos abstractos. Además, puede ajustarse eficientemente con un mínimo de datos de trayectorias humanas, permitiendo una adaptación rápida y rentable a nuevos entornos. GR-3 también destaca en la ejecución de tareas de largo alcance y destreza, incluyendo aquellas que requieren manipulación bimanual y movimiento móvil, mostrando un rendimiento robusto y confiable. Estas capacidades se logran mediante una receta de entrenamiento multifacética que incluye co-entrenamiento con datos de visión-lenguaje a escala web, ajuste fino eficiente a partir de datos de trayectorias humanas recolectados mediante dispositivos de realidad virtual, y aprendizaje por imitación efectivo con datos de trayectorias robóticas. Además, presentamos ByteMini, un robot móvil bimanual versátil diseñado con una flexibilidad y fiabilidad excepcionales, capaz de realizar una amplia gama de tareas cuando se integra con GR-3. A través de extensos experimentos en el mundo real, demostramos que GR-3 supera al método de referencia más avanzado, pi_0, en una amplia variedad de tareas desafiantes. Esperamos que GR-3 pueda servir como un paso hacia la construcción de robots generalistas capaces de asistir a los humanos en la vida diaria.

English

We report our recent progress towards building generalist robot policies, the development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model. It showcases exceptional capabilities in generalizing to novel objects, environments, and instructions involving abstract concepts. Furthermore, it can be efficiently fine-tuned with minimal human trajectory data, enabling rapid and cost-effective adaptation to new settings. GR-3 also excels in handling long-horizon and dexterous tasks, including those requiring bi-manual manipulation and mobile movement, showcasing robust and reliable performance. These capabilities are achieved through a multi-faceted training recipe that includes co-training with web-scale vision-language data, efficient fine-tuning from human trajectory data collected via VR devices, and effective imitation learning with robot trajectory data. In addition, we introduce ByteMini, a versatile bi-manual mobile robot designed with exceptional flexibility and reliability, capable of accomplishing a wide range of tasks when integrated with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the state-of-the-art baseline method, pi_0, on a wide variety of challenging tasks. We hope GR-3 can serve as a step towards building generalist robots capable of assisting humans in daily life.

Informe Técnico GR-3

GR-3 Technical Report

Resumen

Support