ChatPaper.aiChatPaper

RoboCat: Um Agente Base Autodesenvolvedor para Manipulação Robótica

RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

June 20, 2023
Autores: Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess
cs.AI

Resumo

A capacidade de aproveitar experiências robóticas heterogêneas de diferentes robôs e tarefas para dominar rapidamente novas habilidades e configurações tem o potencial de transformar o aprendizado de robôs. Inspirados pelos recentes avanços em modelos de base para visão e linguagem, propomos um agente de base para manipulação robótica. Este agente, denominado RoboCat, é um transformador de decisão condicionado a metas visuais, capaz de consumir experiências visuais rotuladas com ações de múltiplas configurações. Esses dados abrangem um grande repertório de habilidades de controle motor de braços robóticos simulados e reais, com diferentes conjuntos de observações e ações. Com o RoboCat, demonstramos a capacidade de generalizar para novas tarefas e robôs, tanto de forma zero-shot quanto por meio de adaptação usando apenas 100 a 1000 exemplos para a tarefa alvo. Também mostramos como um modelo treinado pode ser usado para gerar dados para iterações subsequentes de treinamento, fornecendo assim um bloco básico para um ciclo de melhoria autônoma. Investigamos as capacidades do agente, com avaliações em grande escala tanto em simulação quanto em três diferentes configurações de robôs reais. Descobrimos que, à medida que expandimos e diversificamos seus dados de treinamento, o RoboCat não apenas mostra sinais de transferência entre tarefas, mas também se torna mais eficiente na adaptação a novas tarefas.
English
The ability to leverage heterogeneous robotic experience from different robots and tasks to quickly master novel skills and embodiments has the potential to transform robot learning. Inspired by recent advances in foundation models for vision and language, we propose a foundation agent for robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned decision transformer capable of consuming multi-embodiment action-labelled visual experience. This data spans a large repertoire of motor control skills from simulated and real robotic arms with varying sets of observations and actions. With RoboCat, we demonstrate the ability to generalise to new tasks and robots, both zero-shot as well as through adaptation using only 100--1000 examples for the target task. We also show how a trained model itself can be used to generate data for subsequent training iterations, thus providing a basic building block for an autonomous improvement loop. We investigate the agent's capabilities, with large-scale evaluations both in simulation and on three different real robot embodiments. We find that as we grow and diversify its training data, RoboCat not only shows signs of cross-task transfer, but also becomes more efficient at adapting to new tasks.
PDF91March 21, 2026