Modelli Fondamentali nella Robotica: Applicazioni, Sfide e il Futuro

Abstract

Esaminiamo le applicazioni dei modelli di base preaddestrati nella robotica. I tradizionali modelli di apprendimento profondo in robotica vengono addestrati su piccoli dataset specifici per compiti particolari, il che limita la loro adattabilità a una vasta gamma di applicazioni. Al contrario, i modelli di base preaddestrati su dati di scala internet sembrano possedere capacità di generalizzazione superiori e, in alcuni casi, mostrano un'abilità emergente di trovare soluzioni zero-shot a problemi non presenti nei dati di addestramento. I modelli di base potrebbero avere il potenziale di migliorare vari componenti dello stack di autonomia robotica, dalla percezione alla decisione e al controllo. Ad esempio, i grandi modelli linguistici possono generare codice o fornire ragionamenti di senso comune, mentre i modelli visione-linguaggio abilitano il riconoscimento visivo a vocabolario aperto. Tuttavia, rimangono significative sfide di ricerca aperte, in particolare riguardo alla scarsità di dati di addestramento rilevanti per la robotica, alle garanzie di sicurezza e alla quantificazione dell'incertezza, nonché all'esecuzione in tempo reale. In questa rassegna, studiamo articoli recenti che hanno utilizzato o costruito modelli di base per risolvere problemi di robotica. Esploriamo come i modelli di base contribuiscono a migliorare le capacità dei robot nei domini della percezione, della decisione e del controllo. Discutiamo le sfide che ostacolano l'adozione dei modelli di base nell'autonomia robotica e forniamo opportunità e potenziali percorsi per futuri progressi. Il progetto GitHub corrispondente a questo articolo (Rilascio preliminare. Ci impegniamo a migliorare e aggiornare ulteriormente questo lavoro per garantirne qualità e rilevanza) può essere trovato qui: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

English

We survey applications of pretrained foundation models in robotics. Traditional deep learning models in robotics are trained on small datasets tailored for specific tasks, which limits their adaptability across diverse applications. In contrast, foundation models pretrained on internet-scale data appear to have superior generalization capabilities, and in some instances display an emergent ability to find zero-shot solutions to problems that are not present in the training data. Foundation models may hold the potential to enhance various components of the robot autonomy stack, from perception to decision-making and control. For example, large language models can generate code or provide common sense reasoning, while vision-language models enable open-vocabulary visual recognition. However, significant open research challenges remain, particularly around the scarcity of robot-relevant training data, safety guarantees and uncertainty quantification, and real-time execution. In this survey, we study recent papers that have used or built foundation models to solve robotics problems. We explore how foundation models contribute to improving robot capabilities in the domains of perception, decision-making, and control. We discuss the challenges hindering the adoption of foundation models in robot autonomy and provide opportunities and potential pathways for future advancements. The GitHub project corresponding to this paper (Preliminary release. We are committed to further enhancing and updating this work to ensure its quality and relevance) can be found here: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

Modelli Fondamentali nella Robotica: Applicazioni, Sfide e il Futuro

Foundation Models in Robotics: Applications, Challenges, and the Future

Abstract

Support