Bucles de Mejora Auto-Adaptativos para el Aprendizaje Robótico

Resumen

Los modelos generativos de video entrenados con demostraciones de expertos se han utilizado como planificadores visuales condicionados por texto de alto rendimiento para resolver tareas robóticas. Sin embargo, la generalización a tareas no vistas sigue siendo un desafío. Si bien una mejor generalización podría facilitarse aprovechando el conocimiento previo aprendido de fuentes de datos adicionales recopiladas previamente de manera offline, como conjuntos de datos de video a escala web, en la era de la experiencia, nuestro objetivo es diseñar agentes que puedan mejorar continuamente de manera online a partir de comportamientos auto-recopilados. En este trabajo, proponemos el Bucle de Mejora Auto-Adaptativo (SAIL, por sus siglas en inglés), donde un modelo de video en el dominio se actualiza iterativamente con trayectorias auto-producidas, recopiladas mediante la adaptación con un modelo de video preentrenado a escala de internet, y mejora constantemente su rendimiento para una tarea específica de interés. Aplicamos SAIL a un conjunto diverso de tareas de MetaWorld, así como a dos tareas de manipulación en un brazo robótico real, y encontramos que las mejoras en el rendimiento emergen continuamente a lo largo de múltiples iteraciones para tareas novedosas que inicialmente no se habían visto durante el entrenamiento original del modelo de video en el dominio. Además, descubrimos que SAIL es sorprendentemente robusto en cuanto a si y cómo se filtra la experiencia auto-recopilada, y la calidad de las demostraciones iniciales en el dominio. A través de la adaptación con datos resumidos a escala de internet y el aprendizaje mediante la experiencia online, demostramos así una forma de impulsar iterativamente un modelo de video de alto rendimiento para resolver tareas robóticas novedosas mediante la auto-mejora.

English

Video generative models trained on expert demonstrations have been utilized as performant text-conditioned visual planners for solving robotic tasks. However, generalization to unseen tasks remains a challenge. Whereas improved generalization may be facilitated by leveraging learned prior knowledge from additional pre-collected offline data sources, such as web-scale video datasets, in the era of experience we aim to design agents that can continuously improve in an online manner from self-collected behaviors. In this work we thus propose the Self-Adapting Improvement Loop (SAIL), where an in-domain video model iteratively updates itself on self-produced trajectories, collected through adaptation with an internet-scale pretrained video model, and steadily improves its performance for a specified task of interest. We apply SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks on a real robot arm, and find that performance improvements continuously emerge over multiple iterations for novel tasks initially unseen during original in-domain video model training. Furthermore, we discover that SAIL is surprisingly robust regarding if and how the self-collected experience is filtered, and the quality of the initial in-domain demonstrations. Through adaptation with summarized internet-scale data, and learning through online experience, we thus demonstrate a way to iteratively bootstrap a high-performance video model for solving novel robotic tasks through self-improvement.

Bucles de Mejora Auto-Adaptativos para el Aprendizaje Robótico

Self-Adapting Improvement Loops for Robotic Learning

Resumen

Support