Фундаментальные модели в робототехнике: Применения, вызовы и перспективы
Foundation Models in Robotics: Applications, Challenges, and the Future
December 13, 2023
Авторы: Roya Firoozi, Johnathan Tucker, Stephen Tian, Anirudha Majumdar, Jiankai Sun, Weiyu Liu, Yuke Zhu, Shuran Song, Ashish Kapoor, Karol Hausman, Brian Ichter, Danny Driess, Jiajun Wu, Cewu Lu, Mac Schwager
cs.AI
Аннотация
Мы рассматриваем применение предобученных базовых моделей в робототехнике. Традиционные модели глубокого обучения в робототехнике обучаются на небольших наборах данных, адаптированных для конкретных задач, что ограничивает их применимость в разнообразных сценариях. В отличие от них, базовые модели, предобученные на данных интернет-масштаба, демонстрируют превосходные способности к обобщению и в некоторых случаях проявляют эмерджентную способность находить решения для задач, отсутствующих в обучающих данных, в режиме "zero-shot". Базовые модели могут обладать потенциалом для улучшения различных компонентов стека автономии роботов, от восприятия до принятия решений и управления. Например, крупные языковые модели способны генерировать код или предоставлять здравый смысл, а модели, объединяющие зрение и язык, позволяют выполнять открытое визуальное распознавание. Однако остаются значительные открытые исследовательские проблемы, особенно в связи с недостатком данных, релевантных для робототехники, гарантиями безопасности и количественной оценкой неопределенности, а также выполнением в реальном времени. В данном обзоре мы изучаем недавние работы, в которых использовались или создавались базовые модели для решения задач робототехники. Мы исследуем, как базовые модели способствуют улучшению возможностей роботов в областях восприятия, принятия решений и управления. Мы обсуждаем вызовы, препятствующие внедрению базовых моделей в автономию роботов, и предлагаем возможности и потенциальные пути для будущих достижений. Проект на GitHub, соответствующий этой статье (Предварительный выпуск. Мы стремимся к дальнейшему улучшению и обновлению этой работы для обеспечения её качества и актуальности), доступен по ссылке: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models.
English
We survey applications of pretrained foundation models in robotics.
Traditional deep learning models in robotics are trained on small datasets
tailored for specific tasks, which limits their adaptability across diverse
applications. In contrast, foundation models pretrained on internet-scale data
appear to have superior generalization capabilities, and in some instances
display an emergent ability to find zero-shot solutions to problems that are
not present in the training data. Foundation models may hold the potential to
enhance various components of the robot autonomy stack, from perception to
decision-making and control. For example, large language models can generate
code or provide common sense reasoning, while vision-language models enable
open-vocabulary visual recognition. However, significant open research
challenges remain, particularly around the scarcity of robot-relevant training
data, safety guarantees and uncertainty quantification, and real-time
execution. In this survey, we study recent papers that have used or built
foundation models to solve robotics problems. We explore how foundation models
contribute to improving robot capabilities in the domains of perception,
decision-making, and control. We discuss the challenges hindering the adoption
of foundation models in robot autonomy and provide opportunities and potential
pathways for future advancements. The GitHub project corresponding to this
paper (Preliminary release. We are committed to further enhancing and updating
this work to ensure its quality and relevance) can be found here:
https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models