RoboCat: Ein selbstverbessernder Basissystem-Agent für robotische Manipulation

Zusammenfassung

Die Fähigkeit, heterogene robotische Erfahrungen aus verschiedenen Robotern und Aufgaben zu nutzen, um neue Fähigkeiten und Verkörperungen schnell zu meistern, hat das Potenzial, das Robotik-Lernen zu revolutionieren. Inspiriert von den jüngsten Fortschritten bei Foundation-Modellen für Vision und Sprache, schlagen wir einen Foundation-Agenten für die robotische Manipulation vor. Dieser Agent, genannt RoboCat, ist ein visueller zielbedingter Entscheidungstransformator, der in der Lage ist, visuelle Erfahrungen mit aktionsbeschrifteten Daten aus verschiedenen Verkörperungen zu verarbeiten. Diese Daten umfassen ein breites Repertoire an motorischen Kontrollfähigkeiten von simulierten und realen Roboterarmen mit unterschiedlichen Beobachtungs- und Aktionssätzen. Mit RoboCat demonstrieren wir die Fähigkeit, sich auf neue Aufgaben und Roboter zu verallgemeinern, sowohl im Zero-Shot-Lernen als auch durch Anpassung mit nur 100–1000 Beispielen für die Zielaufgabe. Wir zeigen auch, wie ein trainiertes Modell selbst zur Generierung von Daten für nachfolgende Trainingsiterationen verwendet werden kann, wodurch ein grundlegender Baustein für eine autonome Verbesserungsschleife bereitgestellt wird. Wir untersuchen die Fähigkeiten des Agenten mit groß angelegten Bewertungen sowohl in der Simulation als auch an drei verschiedenen realen Roboter-Verkörperungen. Wir stellen fest, dass RoboCat, wenn wir seine Trainingsdaten erweitern und diversifizieren, nicht nur Anzeichen von Aufgabenübertragung zeigt, sondern auch effizienter bei der Anpassung an neue Aufgaben wird.

English

The ability to leverage heterogeneous robotic experience from different robots and tasks to quickly master novel skills and embodiments has the potential to transform robot learning. Inspired by recent advances in foundation models for vision and language, we propose a foundation agent for robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned decision transformer capable of consuming multi-embodiment action-labelled visual experience. This data spans a large repertoire of motor control skills from simulated and real robotic arms with varying sets of observations and actions. With RoboCat, we demonstrate the ability to generalise to new tasks and robots, both zero-shot as well as through adaptation using only 100--1000 examples for the target task. We also show how a trained model itself can be used to generate data for subsequent training iterations, thus providing a basic building block for an autonomous improvement loop. We investigate the agent's capabilities, with large-scale evaluations both in simulation and on three different real robot embodiments. We find that as we grow and diversify its training data, RoboCat not only shows signs of cross-task transfer, but also becomes more efficient at adapting to new tasks.

RoboCat: Ein selbstverbessernder Basissystem-Agent für robotische Manipulation

RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Zusammenfassung

Support