Bucles de Mejora Auto-Adaptativos para el Aprendizaje Robótico
Self-Adapting Improvement Loops for Robotic Learning
June 7, 2025
Autores: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
cs.AI
Resumen
Los modelos generativos de video entrenados con demostraciones de expertos se han utilizado como planificadores visuales condicionados por texto de alto rendimiento para resolver tareas robóticas. Sin embargo, la generalización a tareas no vistas sigue siendo un desafío. Si bien una mejor generalización podría facilitarse aprovechando el conocimiento previo aprendido de fuentes de datos adicionales recopiladas previamente de manera offline, como conjuntos de datos de video a escala web, en la era de la experiencia, nuestro objetivo es diseñar agentes que puedan mejorar continuamente de manera online a partir de comportamientos auto-recopilados. En este trabajo, proponemos el Bucle de Mejora Auto-Adaptativo (SAIL, por sus siglas en inglés), donde un modelo de video en el dominio se actualiza iterativamente con trayectorias auto-producidas, recopiladas mediante la adaptación con un modelo de video preentrenado a escala de internet, y mejora constantemente su rendimiento para una tarea específica de interés. Aplicamos SAIL a un conjunto diverso de tareas de MetaWorld, así como a dos tareas de manipulación en un brazo robótico real, y encontramos que las mejoras en el rendimiento emergen continuamente a lo largo de múltiples iteraciones para tareas novedosas que inicialmente no se habían visto durante el entrenamiento original del modelo de video en el dominio. Además, descubrimos que SAIL es sorprendentemente robusto en cuanto a si y cómo se filtra la experiencia auto-recopilada, y la calidad de las demostraciones iniciales en el dominio. A través de la adaptación con datos resumidos a escala de internet y el aprendizaje mediante la experiencia online, demostramos así una forma de impulsar iterativamente un modelo de video de alto rendimiento para resolver tareas robóticas novedosas mediante la auto-mejora.
English
Video generative models trained on expert demonstrations have been utilized
as performant text-conditioned visual planners for solving robotic tasks.
However, generalization to unseen tasks remains a challenge. Whereas improved
generalization may be facilitated by leveraging learned prior knowledge from
additional pre-collected offline data sources, such as web-scale video
datasets, in the era of experience we aim to design agents that can
continuously improve in an online manner from self-collected behaviors. In this
work we thus propose the Self-Adapting Improvement Loop (SAIL), where an
in-domain video model iteratively updates itself on self-produced trajectories,
collected through adaptation with an internet-scale pretrained video model, and
steadily improves its performance for a specified task of interest. We apply
SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks
on a real robot arm, and find that performance improvements continuously emerge
over multiple iterations for novel tasks initially unseen during original
in-domain video model training. Furthermore, we discover that SAIL is
surprisingly robust regarding if and how the self-collected experience is
filtered, and the quality of the initial in-domain demonstrations. Through
adaptation with summarized internet-scale data, and learning through online
experience, we thus demonstrate a way to iteratively bootstrap a
high-performance video model for solving novel robotic tasks through
self-improvement.