Les modèles fondateurs en robotique : applications, défis et perspectives
Foundation Models in Robotics: Applications, Challenges, and the Future
December 13, 2023
Auteurs: Roya Firoozi, Johnathan Tucker, Stephen Tian, Anirudha Majumdar, Jiankai Sun, Weiyu Liu, Yuke Zhu, Shuran Song, Ashish Kapoor, Karol Hausman, Brian Ichter, Danny Driess, Jiajun Wu, Cewu Lu, Mac Schwager
cs.AI
Résumé
Nous examinons les applications des modèles de base pré-entraînés en robotique. Les modèles d'apprentissage profond traditionnels en robotique sont entraînés sur de petits ensembles de données spécifiques à des tâches particulières, ce qui limite leur adaptabilité à diverses applications. En revanche, les modèles de base pré-entraînés sur des données à l'échelle d'Internet semblent posséder des capacités de généralisation supérieures et, dans certains cas, démontrent une capacité émergente à trouver des solutions en zero-shot à des problèmes absents des données d'entraînement. Les modèles de base pourraient potentiellement améliorer divers composants de la pile d'autonomie robotique, de la perception à la prise de décision et au contrôle. Par exemple, les grands modèles de langage peuvent générer du code ou fournir un raisonnement de bon sens, tandis que les modèles vision-langage permettent une reconnaissance visuelle à vocabulaire ouvert. Cependant, d'importants défis de recherche subsistent, notamment autour de la rareté des données d'entraînement pertinentes pour la robotique, des garanties de sécurité et de la quantification de l'incertitude, ainsi que de l'exécution en temps réel. Dans cette étude, nous analysons des articles récents ayant utilisé ou développé des modèles de base pour résoudre des problèmes de robotique. Nous explorons comment ces modèles contribuent à améliorer les capacités des robots dans les domaines de la perception, de la prise de décision et du contrôle. Nous discutons des défis entravant l'adoption des modèles de base dans l'autonomie robotique et proposons des opportunités et des pistes potentielles pour des avancées futures. Le projet GitHub correspondant à cet article (version préliminaire. Nous nous engageons à améliorer et à mettre à jour ce travail pour en garantir la qualité et la pertinence) est disponible ici : https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
English
We survey applications of pretrained foundation models in robotics.
Traditional deep learning models in robotics are trained on small datasets
tailored for specific tasks, which limits their adaptability across diverse
applications. In contrast, foundation models pretrained on internet-scale data
appear to have superior generalization capabilities, and in some instances
display an emergent ability to find zero-shot solutions to problems that are
not present in the training data. Foundation models may hold the potential to
enhance various components of the robot autonomy stack, from perception to
decision-making and control. For example, large language models can generate
code or provide common sense reasoning, while vision-language models enable
open-vocabulary visual recognition. However, significant open research
challenges remain, particularly around the scarcity of robot-relevant training
data, safety guarantees and uncertainty quantification, and real-time
execution. In this survey, we study recent papers that have used or built
foundation models to solve robotics problems. We explore how foundation models
contribute to improving robot capabilities in the domains of perception,
decision-making, and control. We discuss the challenges hindering the adoption
of foundation models in robot autonomy and provide opportunities and potential
pathways for future advancements. The GitHub project corresponding to this
paper (Preliminary release. We are committed to further enhancing and updating
this work to ensure its quality and relevance) can be found here:
https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models