ロボティクスにおける基盤モデル:応用、課題、そして未来
Foundation Models in Robotics: Applications, Challenges, and the Future
December 13, 2023
著者: Roya Firoozi, Johnathan Tucker, Stephen Tian, Anirudha Majumdar, Jiankai Sun, Weiyu Liu, Yuke Zhu, Shuran Song, Ashish Kapoor, Karol Hausman, Brian Ichter, Danny Driess, Jiajun Wu, Cewu Lu, Mac Schwager
cs.AI
要旨
本調査では、ロボティクスにおける事前学習済み基盤モデルの応用について概観する。従来のロボティクスにおける深層学習モデルは、特定のタスクに特化した小規模なデータセットで学習されるため、多様なアプリケーションへの適応性が制限されていた。これに対し、インターネット規模のデータで事前学習された基盤モデルは、優れた汎化能力を示し、場合によっては学習データに存在しない問題に対するゼロショット解決能力を発現することがある。基盤モデルは、知覚から意思決定、制御に至るロボット自律スタックの様々な要素を強化する可能性を秘めている。例えば、大規模言語モデルはコード生成や常識推論を提供し、視覚言語モデルはオープン語彙の視覚認識を可能にする。しかし、ロボット関連の学習データの不足、安全性の保証と不確実性の定量化、リアルタイム実行といった重要な研究課題が残されている。本調査では、ロボティクス問題の解決に基盤モデルを利用または構築した最近の論文を研究し、知覚、意思決定、制御の領域において基盤モデルがどのようにロボット能力の向上に貢献しているかを探る。また、ロボット自律における基盤モデルの採用を妨げる課題について議論し、今後の進展のための機会と潜在的な道筋を提供する。本論文に対応するGitHubプロジェクト(暫定リリース。品質と関連性を確保するため、さらなる改善と更新に努めている)はこちらで確認できる:https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
English
We survey applications of pretrained foundation models in robotics.
Traditional deep learning models in robotics are trained on small datasets
tailored for specific tasks, which limits their adaptability across diverse
applications. In contrast, foundation models pretrained on internet-scale data
appear to have superior generalization capabilities, and in some instances
display an emergent ability to find zero-shot solutions to problems that are
not present in the training data. Foundation models may hold the potential to
enhance various components of the robot autonomy stack, from perception to
decision-making and control. For example, large language models can generate
code or provide common sense reasoning, while vision-language models enable
open-vocabulary visual recognition. However, significant open research
challenges remain, particularly around the scarcity of robot-relevant training
data, safety guarantees and uncertainty quantification, and real-time
execution. In this survey, we study recent papers that have used or built
foundation models to solve robotics problems. We explore how foundation models
contribute to improving robot capabilities in the domains of perception,
decision-making, and control. We discuss the challenges hindering the adoption
of foundation models in robot autonomy and provide opportunities and potential
pathways for future advancements. The GitHub project corresponding to this
paper (Preliminary release. We are committed to further enhancing and updating
this work to ensure its quality and relevance) can be found here:
https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models