Zelfaanpassende Verbeteringslussen voor Robotisch Leren
Self-Adapting Improvement Loops for Robotic Learning
June 7, 2025
Auteurs: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
cs.AI
Samenvatting
Video-generatieve modellen die zijn getraind op expertdemonstraties, worden gebruikt als performante visuele planners op basis van tekstcondities voor het oplossen van robotische taken. Generalisatie naar onbekende taken blijft echter een uitdaging. Hoewel verbeterde generalisatie mogelijk wordt gefaciliteerd door gebruik te maken van geleerde voorkennis uit aanvullende offline gegevensbronnen, zoals web-schaal videodatasets, streven we in het tijdperk van ervaring ernaar om agents te ontwerpen die zich continu kunnen verbeteren op een online manier door zelfverzamelde gedragingen. In dit werk stellen we daarom de Self-Adapting Improvement Loop (SAIL) voor, waarbij een in-domein videomodel zichzelf iteratief bijwerkt op basis van zelfgeproduceerde trajecten, verzameld door aanpassing met een op internet-schaal voorgetraind videomodel, en gestaag zijn prestaties verbetert voor een gespecificeerde taak van belang. We passen SAIL toe op een diverse reeks MetaWorld-taken, evenals twee manipulatietaken op een echte robotarm, en ontdekken dat prestatieverbeteringen continu ontstaan over meerdere iteraties voor nieuwe taken die aanvankelijk niet gezien waren tijdens de oorspronkelijke training van het in-domein videomodel. Bovendien ontdekken we dat SAIL verrassend robuust is wat betreft of en hoe de zelfverzamelde ervaring wordt gefilterd, en de kwaliteit van de initiële in-domein demonstraties. Door aanpassing met samengevatte internet-schaal gegevens, en leren door online ervaring, demonstreren we zo een manier om iteratief een hoogwaardig videomodel te bootstrappen voor het oplossen van nieuwe robotische taken door zelfverbetering.
English
Video generative models trained on expert demonstrations have been utilized
as performant text-conditioned visual planners for solving robotic tasks.
However, generalization to unseen tasks remains a challenge. Whereas improved
generalization may be facilitated by leveraging learned prior knowledge from
additional pre-collected offline data sources, such as web-scale video
datasets, in the era of experience we aim to design agents that can
continuously improve in an online manner from self-collected behaviors. In this
work we thus propose the Self-Adapting Improvement Loop (SAIL), where an
in-domain video model iteratively updates itself on self-produced trajectories,
collected through adaptation with an internet-scale pretrained video model, and
steadily improves its performance for a specified task of interest. We apply
SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks
on a real robot arm, and find that performance improvements continuously emerge
over multiple iterations for novel tasks initially unseen during original
in-domain video model training. Furthermore, we discover that SAIL is
surprisingly robust regarding if and how the self-collected experience is
filtered, and the quality of the initial in-domain demonstrations. Through
adaptation with summarized internet-scale data, and learning through online
experience, we thus demonstrate a way to iteratively bootstrap a
high-performance video model for solving novel robotic tasks through
self-improvement.