Cicli di Miglioramento Auto-Adattativi per l'Apprendimento Robotico
Self-Adapting Improvement Loops for Robotic Learning
June 7, 2025
Autori: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
cs.AI
Abstract
I modelli generativi video addestrati su dimostrazioni di esperti sono stati utilizzati come pianificatori visivi condizionati da testo ad alte prestazioni per risolvere compiti robotici. Tuttavia, la generalizzazione a compiti non visti rimane una sfida. Sebbene una migliore generalizzazione possa essere facilitata sfruttando conoscenze pregresse apprese da fonti di dati offline pre-raccolte, come dataset video su scala web, nell'era dell'esperienza miriamo a progettare agenti che possano migliorare continuamente in modo online attraverso comportamenti auto-raccolti. In questo lavoro proponiamo quindi il Self-Adapting Improvement Loop (SAIL), in cui un modello video di dominio specifico si aggiorna iterativamente su traiettorie auto-prodotte, raccolte attraverso l'adattamento con un modello video pre-addestrato su scala internet, e migliora costantemente le sue prestazioni per un compito specifico di interesse. Applichiamo SAIL a una serie diversificata di compiti di MetaWorld, nonché a due compiti di manipolazione su un braccio robotico reale, e scopriamo che i miglioramenti delle prestazioni emergono continuamente in più iterazioni per compiti nuovi inizialmente non visti durante l'addestramento originale del modello video di dominio specifico. Inoltre, scopriamo che SAIL è sorprendentemente robusto riguardo a se e come l'esperienza auto-raccolta viene filtrata, e alla qualità delle dimostrazioni iniziali di dominio specifico. Attraverso l'adattamento con dati riassunti su scala internet e l'apprendimento tramite esperienza online, dimostriamo quindi un modo per avviare iterativamente un modello video ad alte prestazioni per risolvere nuovi compiti robotici attraverso l'auto-miglioramento.
English
Video generative models trained on expert demonstrations have been utilized
as performant text-conditioned visual planners for solving robotic tasks.
However, generalization to unseen tasks remains a challenge. Whereas improved
generalization may be facilitated by leveraging learned prior knowledge from
additional pre-collected offline data sources, such as web-scale video
datasets, in the era of experience we aim to design agents that can
continuously improve in an online manner from self-collected behaviors. In this
work we thus propose the Self-Adapting Improvement Loop (SAIL), where an
in-domain video model iteratively updates itself on self-produced trajectories,
collected through adaptation with an internet-scale pretrained video model, and
steadily improves its performance for a specified task of interest. We apply
SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks
on a real robot arm, and find that performance improvements continuously emerge
over multiple iterations for novel tasks initially unseen during original
in-domain video model training. Furthermore, we discover that SAIL is
surprisingly robust regarding if and how the self-collected experience is
filtered, and the quality of the initial in-domain demonstrations. Through
adaptation with summarized internet-scale data, and learning through online
experience, we thus demonstrate a way to iteratively bootstrap a
high-performance video model for solving novel robotic tasks through
self-improvement.