Самоадаптирующиеся циклы улучшения для обучения роботов

Аннотация

Видеогенеративные модели, обученные на экспертных демонстрациях, используются как эффективные визуальные планировщики, управляемые текстовыми условиями, для решения роботизированных задач. Однако обобщение на неизвестные задачи остается сложной задачей. Хотя улучшение обобщения может быть достигнуто за счет использования предварительно полученных знаний из дополнительных оффлайн-источников данных, таких как веб-масштабные видеонаборы, в эпоху опыта мы стремимся разработать агентов, способных непрерывно улучшаться в онлайн-режиме на основе самостоятельно собранных поведений. В данной работе мы предлагаем **Цикл Самоадаптирующегося Улучшения (Self-Adapting Improvement Loop, SAIL)**, в котором внутридоменная видеомодель итеративно обновляется на основе самостоятельно созданных траекторий, собранных через адаптацию с помощью предобученной на интернет-масштабных данных видеомодели, и постепенно улучшает свою производительность для конкретной целевой задачи. Мы применяем SAIL к разнообразному набору задач MetaWorld, а также к двум задачам манипуляции на реальном роботизированном манипуляторе, и обнаруживаем, что улучшение производительности непрерывно проявляется на протяжении нескольких итераций для новых задач, изначально не представленных при обучении внутридоменной видеомодели. Более того, мы выясняем, что SAIL удивительно устойчив к тому, фильтруется ли самостоятельно собранный опыт и как, а также к качеству начальных внутридоменных демонстраций. Благодаря адаптации с использованием обобщенных интернет-масштабных данных и обучению через онлайн-опыт, мы демонстрируем способ итеративного создания высокопроизводительной видеомодели для решения новых роботизированных задач через самоулучшение.

English

Video generative models trained on expert demonstrations have been utilized as performant text-conditioned visual planners for solving robotic tasks. However, generalization to unseen tasks remains a challenge. Whereas improved generalization may be facilitated by leveraging learned prior knowledge from additional pre-collected offline data sources, such as web-scale video datasets, in the era of experience we aim to design agents that can continuously improve in an online manner from self-collected behaviors. In this work we thus propose the Self-Adapting Improvement Loop (SAIL), where an in-domain video model iteratively updates itself on self-produced trajectories, collected through adaptation with an internet-scale pretrained video model, and steadily improves its performance for a specified task of interest. We apply SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks on a real robot arm, and find that performance improvements continuously emerge over multiple iterations for novel tasks initially unseen during original in-domain video model training. Furthermore, we discover that SAIL is surprisingly robust regarding if and how the self-collected experience is filtered, and the quality of the initial in-domain demonstrations. Through adaptation with summarized internet-scale data, and learning through online experience, we thus demonstrate a way to iteratively bootstrap a high-performance video model for solving novel robotic tasks through self-improvement.

Самоадаптирующиеся циклы улучшения для обучения роботов

Self-Adapting Improvement Loops for Robotic Learning

Аннотация

Support