RoboCat: Самообучающийся базовый агент для роботизированного манипулирования
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation
June 20, 2023
Авторы: Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess
cs.AI
Аннотация
Способность использовать разнородный роботизированный опыт, полученный от различных роботов и задач, для быстрого освоения новых навыков и воплощений имеет потенциал для преобразования обучения роботов. Вдохновленные последними достижениями в области базовых моделей для обработки изображений и языка, мы предлагаем базового агента для роботизированного манипулирования. Этот агент, названный RoboCat, представляет собой визуальный трансформатор решений, ориентированный на цели, способный обрабатывать визуальный опыт с метками действий для множества воплощений. Эти данные охватывают широкий спектр навыков управления движением, полученных как от симулированных, так и от реальных роботизированных манипуляторов с различными наборами наблюдений и действий. С помощью RoboCat мы демонстрируем способность обобщать новые задачи и роботов как в режиме "с нуля", так и через адаптацию с использованием всего 100–1000 примеров для целевой задачи. Мы также показываем, как обученная модель сама может быть использована для генерации данных для последующих итераций обучения, что обеспечивает базовый строительный блок для автономного цикла улучшения. Мы исследуем возможности агента, проводя масштабные оценки как в симуляции, так и на трех различных реальных роботизированных воплощениях. Мы обнаруживаем, что по мере роста и диверсификации данных для обучения RoboCat не только демонстрирует признаки межзадачного переноса, но и становится более эффективным в адаптации к новым задачам.
English
The ability to leverage heterogeneous robotic experience from different
robots and tasks to quickly master novel skills and embodiments has the
potential to transform robot learning. Inspired by recent advances in
foundation models for vision and language, we propose a foundation agent for
robotic manipulation. This agent, named RoboCat, is a visual goal-conditioned
decision transformer capable of consuming multi-embodiment action-labelled
visual experience. This data spans a large repertoire of motor control skills
from simulated and real robotic arms with varying sets of observations and
actions. With RoboCat, we demonstrate the ability to generalise to new tasks
and robots, both zero-shot as well as through adaptation using only 100--1000
examples for the target task. We also show how a trained model itself can be
used to generate data for subsequent training iterations, thus providing a
basic building block for an autonomous improvement loop. We investigate the
agent's capabilities, with large-scale evaluations both in simulation and on
three different real robot embodiments. We find that as we grow and diversify
its training data, RoboCat not only shows signs of cross-task transfer, but
also becomes more efficient at adapting to new tasks.