RoboCat: Un agente base de auto-mejora para la manipulación robótica

Resumen

La capacidad de aprovechar experiencias robóticas heterogéneas provenientes de diferentes robots y tareas para dominar rápidamente nuevas habilidades y configuraciones físicas tiene el potencial de transformar el aprendizaje robótico. Inspirados por los avances recientes en modelos fundacionales para visión y lenguaje, proponemos un agente fundacional para la manipulación robótica. Este agente, denominado RoboCat, es un transformador de decisiones condicionado por objetivos visuales capaz de procesar experiencias visuales etiquetadas con acciones de múltiples configuraciones físicas. Estos datos abarcan un amplio repertorio de habilidades de control motor provenientes de brazos robóticos simulados y reales con diversos conjuntos de observaciones y acciones. Con RoboCat, demostramos la capacidad de generalizar a nuevas tareas y robots, tanto de manera inmediata (zero-shot) como a través de la adaptación utilizando solo 100-1000 ejemplos para la tarea objetivo. También mostramos cómo un modelo entrenado puede utilizarse para generar datos en iteraciones posteriores de entrenamiento, proporcionando así un bloque básico para un ciclo de mejora autónoma. Investigamos las capacidades del agente mediante evaluaciones a gran escala tanto en simulación como en tres configuraciones físicas diferentes de robots reales. Descubrimos que, a medida que ampliamos y diversificamos sus datos de entrenamiento, RoboCat no solo muestra signos de transferencia entre tareas, sino que también se vuelve más eficiente al adaptarse a nuevas tareas.

English

The ability to leverage heterogeneous robotic experience from different robots and tasks to quickly master novel skills and embodiments has the potential to transform robot learning. Inspired by recent advances in foundation models for vision and language, we propose a foundation agent for robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned decision transformer capable of consuming multi-embodiment action-labelled visual experience. This data spans a large repertoire of motor control skills from simulated and real robotic arms with varying sets of observations and actions. With RoboCat, we demonstrate the ability to generalise to new tasks and robots, both zero-shot as well as through adaptation using only 100--1000 examples for the target task. We also show how a trained model itself can be used to generate data for subsequent training iterations, thus providing a basic building block for an autonomous improvement loop. We investigate the agent's capabilities, with large-scale evaluations both in simulation and on three different real robot embodiments. We find that as we grow and diversify its training data, RoboCat not only shows signs of cross-task transfer, but also becomes more efficient at adapting to new tasks.

RoboCat: Un agente base de auto-mejora para la manipulación robótica

RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Resumen

Support