Rapport Technique GR-3

papers.abstract

Nous présentons nos récents progrès dans la construction de politiques robotiques généralistes, avec le développement de GR-3. GR-3 est un modèle à grande échelle de vision-langage-action (VLA). Il démontre des capacités exceptionnelles à généraliser à de nouveaux objets, environnements et instructions impliquant des concepts abstraits. De plus, il peut être efficacement affiné avec un minimum de données de trajectoires humaines, permettant une adaptation rapide et économique à de nouveaux contextes. GR-3 excelle également dans la gestion de tâches à long terme et de manipulation dextre, y compris celles nécessitant une manipulation bi-manuelle et des mouvements mobiles, montrant une performance robuste et fiable. Ces capacités sont obtenues grâce à une recette d'entraînement multifacette qui inclut un co-entraînement avec des données vision-langage à l'échelle du web, un affinage efficace à partir de données de trajectoires humaines collectées via des dispositifs de réalité virtuelle, et un apprentissage par imitation efficace avec des données de trajectoires robotiques. En outre, nous introduisons ByteMini, un robot mobile bi-manuel polyvalent conçu avec une flexibilité et une fiabilité exceptionnelles, capable d'accomplir une large gamme de tâches lorsqu'il est intégré à GR-3. À travers de nombreuses expériences en conditions réelles, nous montrons que GR-3 surpasse la méthode de référence actuelle, pi_0, sur une grande variété de tâches complexes. Nous espérons que GR-3 pourra constituer une étape vers la construction de robots généralistes capables d'assister les humains dans la vie quotidienne.

English

We report our recent progress towards building generalist robot policies, the development of GR-3. GR-3 is a large-scale vision-language-action (VLA) model. It showcases exceptional capabilities in generalizing to novel objects, environments, and instructions involving abstract concepts. Furthermore, it can be efficiently fine-tuned with minimal human trajectory data, enabling rapid and cost-effective adaptation to new settings. GR-3 also excels in handling long-horizon and dexterous tasks, including those requiring bi-manual manipulation and mobile movement, showcasing robust and reliable performance. These capabilities are achieved through a multi-faceted training recipe that includes co-training with web-scale vision-language data, efficient fine-tuning from human trajectory data collected via VR devices, and effective imitation learning with robot trajectory data. In addition, we introduce ByteMini, a versatile bi-manual mobile robot designed with exceptional flexibility and reliability, capable of accomplishing a wide range of tasks when integrated with GR-3. Through extensive real-world experiments, we show GR-3 surpasses the state-of-the-art baseline method, pi_0, on a wide variety of challenging tasks. We hope GR-3 can serve as a step towards building generalist robots capable of assisting humans in daily life.

Rapport Technique GR-3

GR-3 Technical Report

papers.abstract

Support