Самоадаптирующиеся циклы улучшения для обучения роботов
Self-Adapting Improvement Loops for Robotic Learning
June 7, 2025
Авторы: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
cs.AI
Аннотация
Видеогенеративные модели, обученные на экспертных демонстрациях, используются как эффективные визуальные планировщики, управляемые текстовыми условиями, для решения роботизированных задач. Однако обобщение на неизвестные задачи остается сложной задачей. Хотя улучшение обобщения может быть достигнуто за счет использования предварительно полученных знаний из дополнительных оффлайн-источников данных, таких как веб-масштабные видеонаборы, в эпоху опыта мы стремимся разработать агентов, способных непрерывно улучшаться в онлайн-режиме на основе самостоятельно собранных поведений. В данной работе мы предлагаем **Цикл Самоадаптирующегося Улучшения (Self-Adapting Improvement Loop, SAIL)**, в котором внутридоменная видеомодель итеративно обновляется на основе самостоятельно созданных траекторий, собранных через адаптацию с помощью предобученной на интернет-масштабных данных видеомодели, и постепенно улучшает свою производительность для конкретной целевой задачи. Мы применяем SAIL к разнообразному набору задач MetaWorld, а также к двум задачам манипуляции на реальном роботизированном манипуляторе, и обнаруживаем, что улучшение производительности непрерывно проявляется на протяжении нескольких итераций для новых задач, изначально не представленных при обучении внутридоменной видеомодели. Более того, мы выясняем, что SAIL удивительно устойчив к тому, фильтруется ли самостоятельно собранный опыт и как, а также к качеству начальных внутридоменных демонстраций. Благодаря адаптации с использованием обобщенных интернет-масштабных данных и обучению через онлайн-опыт, мы демонстрируем способ итеративного создания высокопроизводительной видеомодели для решения новых роботизированных задач через самоулучшение.
English
Video generative models trained on expert demonstrations have been utilized
as performant text-conditioned visual planners for solving robotic tasks.
However, generalization to unseen tasks remains a challenge. Whereas improved
generalization may be facilitated by leveraging learned prior knowledge from
additional pre-collected offline data sources, such as web-scale video
datasets, in the era of experience we aim to design agents that can
continuously improve in an online manner from self-collected behaviors. In this
work we thus propose the Self-Adapting Improvement Loop (SAIL), where an
in-domain video model iteratively updates itself on self-produced trajectories,
collected through adaptation with an internet-scale pretrained video model, and
steadily improves its performance for a specified task of interest. We apply
SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks
on a real robot arm, and find that performance improvements continuously emerge
over multiple iterations for novel tasks initially unseen during original
in-domain video model training. Furthermore, we discover that SAIL is
surprisingly robust regarding if and how the self-collected experience is
filtered, and the quality of the initial in-domain demonstrations. Through
adaptation with summarized internet-scale data, and learning through online
experience, we thus demonstrate a way to iteratively bootstrap a
high-performance video model for solving novel robotic tasks through
self-improvement.