ChatPaper.aiChatPaper

Boucles d'Amélioration Auto-Adaptatives pour l'Apprentissage Robotique

Self-Adapting Improvement Loops for Robotic Learning

June 7, 2025
Auteurs: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
cs.AI

Résumé

Les modèles génératifs vidéo entraînés sur des démonstrations d'experts ont été utilisés comme planificateurs visuels performants conditionnés par le texte pour résoudre des tâches robotiques. Cependant, la généralisation à des tâches non vues reste un défi. Alors qu'une meilleure généralisation pourrait être facilitée en exploitant des connaissances préalables apprises à partir de sources de données hors ligne supplémentaires pré-collectées, telles que des ensembles de données vidéo à l'échelle du web, à l'ère de l'expérience, nous visons à concevoir des agents capables de s'améliorer continuellement de manière en ligne à partir de comportements auto-collectés. Dans ce travail, nous proposons donc la Boucle d'Amélioration Auto-Adaptative (SAIL), où un modèle vidéo dans le domaine se met à jour itérativement sur des trajectoires auto-produites, collectées grâce à l'adaptation avec un modèle vidéo pré-entraîné à l'échelle d'Internet, et améliore progressivement ses performances pour une tâche spécifique d'intérêt. Nous appliquons SAIL à une suite diversifiée de tâches MetaWorld, ainsi qu'à deux tâches de manipulation sur un bras robotique réel, et constatons que des améliorations de performances émergent continuellement sur plusieurs itérations pour des tâches nouvelles initialement non vues lors de l'entraînement original du modèle vidéo dans le domaine. De plus, nous découvrons que SAIL est étonnamment robuste concernant si et comment l'expérience auto-collectée est filtrée, ainsi que la qualité des démonstrations initiales dans le domaine. Grâce à l'adaptation avec des données résumées à l'échelle d'Internet, et à l'apprentissage par expérience en ligne, nous démontrons ainsi une manière de bootstraper itérativement un modèle vidéo haute performance pour résoudre des tâches robotiques nouvelles par auto-amélioration.
English
Video generative models trained on expert demonstrations have been utilized as performant text-conditioned visual planners for solving robotic tasks. However, generalization to unseen tasks remains a challenge. Whereas improved generalization may be facilitated by leveraging learned prior knowledge from additional pre-collected offline data sources, such as web-scale video datasets, in the era of experience we aim to design agents that can continuously improve in an online manner from self-collected behaviors. In this work we thus propose the Self-Adapting Improvement Loop (SAIL), where an in-domain video model iteratively updates itself on self-produced trajectories, collected through adaptation with an internet-scale pretrained video model, and steadily improves its performance for a specified task of interest. We apply SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks on a real robot arm, and find that performance improvements continuously emerge over multiple iterations for novel tasks initially unseen during original in-domain video model training. Furthermore, we discover that SAIL is surprisingly robust regarding if and how the self-collected experience is filtered, and the quality of the initial in-domain demonstrations. Through adaptation with summarized internet-scale data, and learning through online experience, we thus demonstrate a way to iteratively bootstrap a high-performance video model for solving novel robotic tasks through self-improvement.
PDF42June 10, 2025