Octo : Une politique robotique généraliste open-source
Octo: An Open-Source Generalist Robot Policy
May 20, 2024
Auteurs: Octo Model Team, Dibya Ghosh, Homer Walke, Karl Pertsch, Kevin Black, Oier Mees, Sudeep Dasari, Joey Hejna, Tobias Kreiman, Charles Xu, Jianlan Luo, You Liang Tan, Pannag Sanketi, Quan Vuong, Ted Xiao, Dorsa Sadigh, Chelsea Finn, Sergey Levine
cs.AI
Résumé
Les politiques de grande envergure pré-entraînées sur des ensembles de données robotiques diversifiées ont le potentiel de transformer l'apprentissage robotique : au lieu de former de nouvelles politiques à partir de zéro, ces politiques généralistes pour robots peuvent être affinées avec seulement un peu de données spécifiques au domaine, tout en conservant une large généralisation. Cependant, pour être largement applicables à une gamme de scénarios, environnements et tâches d'apprentissage robotique, ces politiques doivent gérer des capteurs et des espaces d'action divers, s'adapter à une variété de plateformes robotiques couramment utilisées, et s'affiner facilement et efficacement à de nouveaux domaines. Dans ce travail, nous visons à poser les bases pour le développement de politiques généralistes, open-source et largement applicables pour la manipulation robotique. Comme première étape, nous présentons Octo, une politique basée sur un transformeur de grande taille, entraînée sur 800 000 trajectoires issues de l'ensemble de données Open X-Embodiment, le plus grand ensemble de données de manipulation robotique à ce jour. Elle peut être instruite via des commandes linguistiques ou des images d'objectif, et peut être efficacement affinée à des configurations robotiques avec de nouvelles entrées sensorielles et espaces d'action en quelques heures sur des GPU grand public standards. Dans des expériences menées sur 9 plateformes robotiques, nous démontrons qu'Octo sert d'initialisation de politique polyvalente qui peut être efficacement affinée à de nouveaux espaces d'observation et d'action. Nous effectuons également des ablations détaillées des décisions de conception pour le modèle Octo, de l'architecture aux données d'entraînement, afin de guider les recherches futures sur la construction de modèles robotiques généralistes.
English
Large policies pretrained on diverse robot datasets have the potential to
transform robotic learning: instead of training new policies from scratch, such
generalist robot policies may be finetuned with only a little in-domain data,
yet generalize broadly. However, to be widely applicable across a range of
robotic learning scenarios, environments, and tasks, such policies need to
handle diverse sensors and action spaces, accommodate a variety of commonly
used robotic platforms, and finetune readily and efficiently to new domains. In
this work, we aim to lay the groundwork for developing open-source, widely
applicable, generalist policies for robotic manipulation. As a first step, we
introduce Octo, a large transformer-based policy trained on 800k trajectories
from the Open X-Embodiment dataset, the largest robot manipulation dataset to
date. It can be instructed via language commands or goal images and can be
effectively finetuned to robot setups with new sensory inputs and action spaces
within a few hours on standard consumer GPUs. In experiments across 9 robotic
platforms, we demonstrate that Octo serves as a versatile policy initialization
that can be effectively finetuned to new observation and action spaces. We also
perform detailed ablations of design decisions for the Octo model, from
architecture to training data, to guide future research on building generalist
robot models.Summary
AI-Generated Summary