AutoRT : Modèles de base incarnés pour l'orchestration à grande échelle d'agents robotiques
AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents
January 23, 2024
Auteurs: Michael Ahn, Debidatta Dwibedi, Chelsea Finn, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Karol Hausman, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Sean Kirmani, Isabel Leal, Edward Lee, Sergey Levine, Yao Lu, Isabel Leal, Sharath Maddineni, Kanishka Rao, Dorsa Sadigh, Pannag Sanketi, Pierre Sermanet, Quan Vuong, Stefan Welker, Fei Xia, Ted Xiao, Peng Xu, Steve Xu, Zhuo Xu
cs.AI
Résumé
Les modèles de base qui intègrent le langage, la vision et, plus récemment, les actions ont révolutionné la capacité à exploiter des données à l'échelle d'Internet pour raisonner sur des tâches utiles. Cependant, l'un des principaux défis de l'entraînement de modèles de base incarnés est le manque de données ancrées dans le monde physique. Dans cet article, nous proposons AutoRT, un système qui exploite les modèles de base existants pour intensifier le déploiement de robots opérationnels dans des scénarios totalement inédits avec un minimum de supervision humaine. AutoRT utilise des modèles vision-langage (VLMs) pour la compréhension et l'ancrage des scènes, et exploite en outre des modèles de langage de grande taille (LLMs) pour proposer des instructions diverses et novatrices à exécuter par une flotte de robots. Guider la collecte de données en puisant dans les connaissances des modèles de base permet à AutoRT de raisonner efficacement sur les compromis d'autonomie et de sécurité tout en augmentant considérablement la collecte de données pour l'apprentissage des robots. Nous démontrons qu'AutoRT propose des instructions à plus de 20 robots répartis dans plusieurs bâtiments et collecte 77 000 épisodes réels de robots via à la fois la téléopération et des politiques de robots autonomes. Nous montrons expérimentalement que ces données "en conditions réelles" collectées par AutoRT sont nettement plus diversifiées, et que l'utilisation des LLMs par AutoRT permet une collecte de données par des robots suivant des instructions qui s'alignent sur les préférences humaines.
English
Foundation models that incorporate language, vision, and more recently
actions have revolutionized the ability to harness internet scale data to
reason about useful tasks. However, one of the key challenges of training
embodied foundation models is the lack of data grounded in the physical world.
In this paper, we propose AutoRT, a system that leverages existing foundation
models to scale up the deployment of operational robots in completely unseen
scenarios with minimal human supervision. AutoRT leverages vision-language
models (VLMs) for scene understanding and grounding, and further uses large
language models (LLMs) for proposing diverse and novel instructions to be
performed by a fleet of robots. Guiding data collection by tapping into the
knowledge of foundation models enables AutoRT to effectively reason about
autonomy tradeoffs and safety while significantly scaling up data collection
for robot learning. We demonstrate AutoRT proposing instructions to over 20
robots across multiple buildings and collecting 77k real robot episodes via
both teleoperation and autonomous robot policies. We experimentally show that
such "in-the-wild" data collected by AutoRT is significantly more diverse, and
that AutoRT's use of LLMs allows for instruction following data collection
robots that can align to human preferences.