Modelos Fundacionales en Robótica: Aplicaciones, Desafíos y el Futuro

Resumen

En este trabajo, examinamos las aplicaciones de los modelos base preentrenados en robótica. Los modelos tradicionales de aprendizaje profundo en robótica se entrenan con conjuntos de datos pequeños adaptados a tareas específicas, lo que limita su adaptabilidad en diversas aplicaciones. En contraste, los modelos base preentrenados con datos a escala de internet parecen tener capacidades de generalización superiores y, en algunos casos, muestran una habilidad emergente para encontrar soluciones de cero disparos a problemas que no están presentes en los datos de entrenamiento. Estos modelos base podrían tener el potencial de mejorar varios componentes de la pila de autonomía robótica, desde la percepción hasta la toma de decisiones y el control. Por ejemplo, los modelos de lenguaje de gran escala pueden generar código o proporcionar razonamiento de sentido común, mientras que los modelos de visión y lenguaje permiten el reconocimiento visual de vocabulario abierto. Sin embargo, persisten importantes desafíos de investigación, particularmente en torno a la escasez de datos de entrenamiento relevantes para robótica, las garantías de seguridad y la cuantificación de incertidumbre, y la ejecución en tiempo real. En este estudio, analizamos trabajos recientes que han utilizado o desarrollado modelos base para resolver problemas de robótica. Exploramos cómo estos modelos contribuyen a mejorar las capacidades robóticas en los dominios de percepción, toma de decisiones y control. Discutimos los desafíos que dificultan la adopción de modelos base en la autonomía robótica y ofrecemos oportunidades y posibles vías para avances futuros. El proyecto de GitHub correspondiente a este artículo (Versión preliminar. Estamos comprometidos a mejorar y actualizar este trabajo para garantizar su calidad y relevancia) se puede encontrar aquí: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models.

English

We survey applications of pretrained foundation models in robotics. Traditional deep learning models in robotics are trained on small datasets tailored for specific tasks, which limits their adaptability across diverse applications. In contrast, foundation models pretrained on internet-scale data appear to have superior generalization capabilities, and in some instances display an emergent ability to find zero-shot solutions to problems that are not present in the training data. Foundation models may hold the potential to enhance various components of the robot autonomy stack, from perception to decision-making and control. For example, large language models can generate code or provide common sense reasoning, while vision-language models enable open-vocabulary visual recognition. However, significant open research challenges remain, particularly around the scarcity of robot-relevant training data, safety guarantees and uncertainty quantification, and real-time execution. In this survey, we study recent papers that have used or built foundation models to solve robotics problems. We explore how foundation models contribute to improving robot capabilities in the domains of perception, decision-making, and control. We discuss the challenges hindering the adoption of foundation models in robot autonomy and provide opportunities and potential pathways for future advancements. The GitHub project corresponding to this paper (Preliminary release. We are committed to further enhancing and updating this work to ensure its quality and relevance) can be found here: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

Modelos Fundacionales en Robótica: Aplicaciones, Desafíos y el Futuro

Foundation Models in Robotics: Applications, Challenges, and the Future

Resumen

Support