Foundation Models in der Robotik: Anwendungen, Herausforderungen und die Zukunft

papers.abstract

Wir untersuchen Anwendungen vortrainierter Foundation-Modelle in der Robotik. Traditionelle Deep-Learning-Modelle in der Robotik werden auf kleinen Datensätzen trainiert, die für spezifische Aufgaben zugeschnitten sind, was ihre Anpassungsfähigkeit über verschiedene Anwendungen hinweg einschränkt. Im Gegensatz dazu scheinen Foundation-Modelle, die auf internetgroßen Daten vortrainiert wurden, überlegene Generalisierungsfähigkeiten zu besitzen und zeigen in einigen Fällen sogar die Fähigkeit, Zero-Shot-Lösungen für Probleme zu finden, die nicht in den Trainingsdaten enthalten sind. Foundation-Modelle könnten das Potenzial haben, verschiedene Komponenten des Robotik-Autonomie-Stacks zu verbessern, von der Wahrnehmung über die Entscheidungsfindung bis hin zur Steuerung. Beispielsweise können große Sprachmodelle Code generieren oder gesunden Menschenverstand bereitstellen, während Vision-Sprach-Modelle eine offene Vokabelerkennung ermöglichen. Es bleiben jedoch bedeutende offene Forschungsherausforderungen, insbesondere im Hinblick auf die Knappheit roboterrelevanter Trainingsdaten, Sicherheitsgarantien und Unsicherheitsquantifizierung sowie Echtzeitausführung. In dieser Untersuchung analysieren wir aktuelle Arbeiten, die Foundation-Modelle verwendet oder entwickelt haben, um Robotikprobleme zu lösen. Wir erforschen, wie Foundation-Modelle dazu beitragen, die Fähigkeiten von Robotern in den Bereichen Wahrnehmung, Entscheidungsfindung und Steuerung zu verbessern. Wir diskutieren die Herausforderungen, die die Einführung von Foundation-Modellen in der Robotik-Autonomie behindern, und bieten Möglichkeiten sowie potenzielle Wege für zukünftige Fortschritte. Das GitHub-Projekt, das dieser Arbeit entspricht (Vorläufige Veröffentlichung. Wir sind bestrebt, diese Arbeit weiter zu verbessern und zu aktualisieren, um ihre Qualität und Relevanz sicherzustellen), ist hier zu finden: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

English

We survey applications of pretrained foundation models in robotics. Traditional deep learning models in robotics are trained on small datasets tailored for specific tasks, which limits their adaptability across diverse applications. In contrast, foundation models pretrained on internet-scale data appear to have superior generalization capabilities, and in some instances display an emergent ability to find zero-shot solutions to problems that are not present in the training data. Foundation models may hold the potential to enhance various components of the robot autonomy stack, from perception to decision-making and control. For example, large language models can generate code or provide common sense reasoning, while vision-language models enable open-vocabulary visual recognition. However, significant open research challenges remain, particularly around the scarcity of robot-relevant training data, safety guarantees and uncertainty quantification, and real-time execution. In this survey, we study recent papers that have used or built foundation models to solve robotics problems. We explore how foundation models contribute to improving robot capabilities in the domains of perception, decision-making, and control. We discuss the challenges hindering the adoption of foundation models in robot autonomy and provide opportunities and potential pathways for future advancements. The GitHub project corresponding to this paper (Preliminary release. We are committed to further enhancing and updating this work to ensure its quality and relevance) can be found here: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

Foundation Models in der Robotik: Anwendungen, Herausforderungen und die Zukunft

Foundation Models in Robotics: Applications, Challenges, and the Future

papers.abstract

Support