Foundation Models in Robotica: Toepassingen, Uitdagingen en de Toekomst

Samenvatting

We onderzoeken toepassingen van vooraf getrainde foundation modellen in robotica. Traditionele deep learning-modellen in robotica worden getraind op kleine datasets die zijn afgestemd op specifieke taken, wat hun aanpassingsvermogen over diverse toepassingen beperkt. Daarentegen lijken foundation modellen die vooraf zijn getraind op internet-schaal data superieure generalisatiecapaciteiten te hebben, en vertonen in sommige gevallen een emergent vermogen om zero-shot oplossingen te vinden voor problemen die niet in de trainingsdata aanwezig zijn. Foundation modellen kunnen het potentieel hebben om verschillende componenten van de robotautonomiestack te verbeteren, van perceptie tot besluitvorming en controle. Grote taalmodellen kunnen bijvoorbeeld code genereren of gezond verstand redeneren, terwijl visie-taalmodellen open-vocabulair visuele herkenning mogelijk maken. Er blijven echter aanzienlijke open onderzoeksuitdagingen bestaan, met name rond de schaarste van robot-relevante trainingsdata, veiligheidsgaranties en onzekerheidskwantificering, en real-time uitvoering. In dit onderzoek bestuderen we recente papers die foundation modellen hebben gebruikt of gebouwd om robotica-problemen op te lossen. We onderzoeken hoe foundation modellen bijdragen aan het verbeteren van robotcapaciteiten op het gebied van perceptie, besluitvorming en controle. We bespreken de uitdagingen die de adoptie van foundation modellen in robotautonomie belemmeren en bieden kansen en potentiële wegen voor toekomstige vooruitgang. Het GitHub-project dat bij dit paper hoort (Voorlopige release. We zijn toegewijd aan het verder verbeteren en updaten van dit werk om de kwaliteit en relevantie te waarborgen) is hier te vinden: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

English

We survey applications of pretrained foundation models in robotics. Traditional deep learning models in robotics are trained on small datasets tailored for specific tasks, which limits their adaptability across diverse applications. In contrast, foundation models pretrained on internet-scale data appear to have superior generalization capabilities, and in some instances display an emergent ability to find zero-shot solutions to problems that are not present in the training data. Foundation models may hold the potential to enhance various components of the robot autonomy stack, from perception to decision-making and control. For example, large language models can generate code or provide common sense reasoning, while vision-language models enable open-vocabulary visual recognition. However, significant open research challenges remain, particularly around the scarcity of robot-relevant training data, safety guarantees and uncertainty quantification, and real-time execution. In this survey, we study recent papers that have used or built foundation models to solve robotics problems. We explore how foundation models contribute to improving robot capabilities in the domains of perception, decision-making, and control. We discuss the challenges hindering the adoption of foundation models in robot autonomy and provide opportunities and potential pathways for future advancements. The GitHub project corresponding to this paper (Preliminary release. We are committed to further enhancing and updating this work to ensure its quality and relevance) can be found here: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

Foundation Models in Robotica: Toepassingen, Uitdagingen en de Toekomst

Foundation Models in Robotics: Applications, Challenges, and the Future

Samenvatting

Support