RoboCat: Un Agente Fondamentale Auto-Migliorante per la Manipolazione Robotica

Abstract

La capacità di sfruttare esperienze robotiche eterogenee provenienti da diversi robot e compiti per padroneggiare rapidamente nuove abilità e incarnazioni ha il potenziale di trasformare l'apprendimento robotico. Ispirati dai recenti progressi nei modelli di base per la visione e il linguaggio, proponiamo un agente di base per la manipolazione robotica. Questo agente, chiamato RoboCat, è un trasformatore decisionale condizionato da obiettivi visivi in grado di elaborare esperienze visive etichettate con azioni multi-incarnazione. Questi dati abbracciano un vasto repertorio di abilità di controllo motorio provenienti da bracci robotici simulati e reali con diversi set di osservazioni e azioni. Con RoboCat, dimostriamo la capacità di generalizzare a nuovi compiti e robot, sia in modalità zero-shot sia attraverso l'adattamento utilizzando solo 100-1000 esempi per il compito target. Mostriamo inoltre come un modello addestrato possa essere utilizzato per generare dati per iterazioni di addestramento successive, fornendo così un elemento di base per un ciclo di miglioramento autonomo. Investigiamo le capacità dell'agente, con valutazioni su larga scala sia in simulazione sia su tre diverse incarnazioni di robot reali. Rileviamo che, man mano che aumentiamo e diversifichiamo i suoi dati di addestramento, RoboCat non solo mostra segni di trasferimento tra compiti, ma diventa anche più efficiente nell'adattarsi a nuovi compiti.

English

The ability to leverage heterogeneous robotic experience from different robots and tasks to quickly master novel skills and embodiments has the potential to transform robot learning. Inspired by recent advances in foundation models for vision and language, we propose a foundation agent for robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned decision transformer capable of consuming multi-embodiment action-labelled visual experience. This data spans a large repertoire of motor control skills from simulated and real robotic arms with varying sets of observations and actions. With RoboCat, we demonstrate the ability to generalise to new tasks and robots, both zero-shot as well as through adaptation using only 100--1000 examples for the target task. We also show how a trained model itself can be used to generate data for subsequent training iterations, thus providing a basic building block for an autonomous improvement loop. We investigate the agent's capabilities, with large-scale evaluations both in simulation and on three different real robot embodiments. We find that as we grow and diversify its training data, RoboCat not only shows signs of cross-task transfer, but also becomes more efficient at adapting to new tasks.

RoboCat: Un Agente Fondamentale Auto-Migliorante per la Manipolazione Robotica

RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Abstract

Support