Modelos de Base em Robótica: Aplicações, Desafios e o Futuro

Resumo

Neste artigo, investigamos as aplicações de modelos de base pré-treinados (foundation models) na robótica. Tradicionalmente, os modelos de aprendizado profundo em robótica são treinados em conjuntos de dados pequenos e específicos para tarefas particulares, o que limita sua adaptabilidade em diversas aplicações. Em contraste, os modelos de base pré-treinados com dados em escala da internet parecem possuir capacidades de generalização superiores e, em alguns casos, demonstram uma habilidade emergente de encontrar soluções zero-shot para problemas que não estão presentes nos dados de treinamento. Esses modelos podem ter o potencial de aprimorar diversos componentes da pilha de autonomia robótica, desde a percepção até a tomada de decisão e o controle. Por exemplo, modelos de linguagem de grande escala podem gerar código ou fornecer raciocínio de senso comum, enquanto modelos visão-linguagem permitem o reconhecimento visual de vocabulário aberto. No entanto, desafios significativos de pesquisa permanecem em aberto, especialmente em relação à escassez de dados de treinamento relevantes para robótica, garantias de segurança e quantificação de incerteza, e execução em tempo real. Nesta revisão, estudamos artigos recentes que utilizaram ou desenvolveram modelos de base para resolver problemas de robótica. Exploramos como esses modelos contribuem para melhorar as capacidades dos robôs nas áreas de percepção, tomada de decisão e controle. Discutimos os desafios que impedem a adoção de modelos de base na autonomia robótica e apresentamos oportunidades e caminhos potenciais para avanços futuros. O projeto no GitHub correspondente a este artigo (Lançamento preliminar. Estamos comprometidos em aprimorar e atualizar este trabalho para garantir sua qualidade e relevância) pode ser encontrado aqui: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models.

English

We survey applications of pretrained foundation models in robotics. Traditional deep learning models in robotics are trained on small datasets tailored for specific tasks, which limits their adaptability across diverse applications. In contrast, foundation models pretrained on internet-scale data appear to have superior generalization capabilities, and in some instances display an emergent ability to find zero-shot solutions to problems that are not present in the training data. Foundation models may hold the potential to enhance various components of the robot autonomy stack, from perception to decision-making and control. For example, large language models can generate code or provide common sense reasoning, while vision-language models enable open-vocabulary visual recognition. However, significant open research challenges remain, particularly around the scarcity of robot-relevant training data, safety guarantees and uncertainty quantification, and real-time execution. In this survey, we study recent papers that have used or built foundation models to solve robotics problems. We explore how foundation models contribute to improving robot capabilities in the domains of perception, decision-making, and control. We discuss the challenges hindering the adoption of foundation models in robot autonomy and provide opportunities and potential pathways for future advancements. The GitHub project corresponding to this paper (Preliminary release. We are committed to further enhancing and updating this work to ensure its quality and relevance) can be found here: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

Modelos de Base em Robótica: Aplicações, Desafios e o Futuro

Foundation Models in Robotics: Applications, Challenges, and the Future

Resumo

Support