ChatPaper.aiChatPaper

Selbstanpassende Verbesserungsschleifen für das Robotik-Lernen

Self-Adapting Improvement Loops for Robotic Learning

June 7, 2025
Autoren: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
cs.AI

Zusammenfassung

Video-Generative Modelle, die auf Experten-Demonstrationen trainiert wurden, wurden als leistungsstarke textkonditionierte visuelle Planer zur Lösung von Robotikaufgaben eingesetzt. Die Generalisierung auf unbekannte Aufgaben bleibt jedoch eine Herausforderung. Während eine verbesserte Generalisierung durch die Nutzung von erlerntem Vorwissen aus zusätzlichen, vorab gesammelten Offline-Datenquellen, wie z.B. webweiten Video-Datensätzen, erleichtert werden könnte, zielen wir im Zeitalter der Erfahrung darauf ab, Agenten zu entwickeln, die sich kontinuierlich auf Online-Weise aus selbst gesammelten Verhaltensweisen verbessern können. In dieser Arbeit schlagen wir daher die Self-Adapting Improvement Loop (SAIL) vor, bei der ein domänenspezifisches Video-Modell iterativ anhand selbst erzeugter Trajektorien aktualisiert wird, die durch die Anpassung mit einem internetweit vortrainierten Video-Modell gesammelt wurden, und seine Leistung für eine spezifische Zielaufgabe stetig verbessert. Wir wenden SAIL auf eine vielfältige Reihe von MetaWorld-Aufgaben sowie auf zwei Manipulationsaufgaben an einem realen Roboterarm an und stellen fest, dass Leistungsverbesserungen über mehrere Iterationen hinweg kontinuierlich für neue Aufgaben auftreten, die ursprünglich während des Trainings des domänenspezifischen Video-Modells unbekannt waren. Darüber hinaus entdecken wir, dass SAIL überraschend robust in Bezug darauf ist, ob und wie die selbst gesammelten Erfahrungen gefiltert werden, sowie in Bezug auf die Qualität der anfänglichen domänenspezifischen Demonstrationen. Durch die Anpassung mit zusammengefassten internetweiten Daten und das Lernen durch Online-Erfahrung demonstrieren wir somit einen Weg, um ein leistungsstarkes Video-Modell zur Lösung neuer Robotikaufgaben durch Selbstverbesserung iterativ zu bootstrappen.
English
Video generative models trained on expert demonstrations have been utilized as performant text-conditioned visual planners for solving robotic tasks. However, generalization to unseen tasks remains a challenge. Whereas improved generalization may be facilitated by leveraging learned prior knowledge from additional pre-collected offline data sources, such as web-scale video datasets, in the era of experience we aim to design agents that can continuously improve in an online manner from self-collected behaviors. In this work we thus propose the Self-Adapting Improvement Loop (SAIL), where an in-domain video model iteratively updates itself on self-produced trajectories, collected through adaptation with an internet-scale pretrained video model, and steadily improves its performance for a specified task of interest. We apply SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks on a real robot arm, and find that performance improvements continuously emerge over multiple iterations for novel tasks initially unseen during original in-domain video model training. Furthermore, we discover that SAIL is surprisingly robust regarding if and how the self-collected experience is filtered, and the quality of the initial in-domain demonstrations. Through adaptation with summarized internet-scale data, and learning through online experience, we thus demonstrate a way to iteratively bootstrap a high-performance video model for solving novel robotic tasks through self-improvement.
PDF42June 10, 2025