Laços de Melhoria Auto-Adaptativos para Aprendizado Robótico
Self-Adapting Improvement Loops for Robotic Learning
June 7, 2025
Autores: Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
cs.AI
Resumo
Modelos generativos de vídeo treinados em demonstrações de especialistas têm sido utilizados como planejadores visuais condicionados por texto de alto desempenho para resolver tarefas robóticas. No entanto, a generalização para tarefas não vistas anteriormente continua sendo um desafio. Embora uma melhor generalização possa ser facilitada ao aproveitar conhecimentos prévios aprendidos de fontes de dados offline pré-coletados adicionais, como conjuntos de dados de vídeo em escala da web, na era da experiência, nosso objetivo é projetar agentes que possam melhorar continuamente de maneira online a partir de comportamentos auto-coletados. Neste trabalho, propomos, portanto, o *Self-Adapting Improvement Loop* (SAIL), onde um modelo de vídeo em domínio específico se atualiza iterativamente em trajetórias auto-produzidas, coletadas por meio da adaptação com um modelo de vídeo pré-treinado em escala da internet, e melhora consistentemente seu desempenho para uma tarefa de interesse especificada. Aplicamos o SAIL a uma suíte diversificada de tarefas do MetaWorld, bem como a duas tarefas de manipulação em um braço robótico real, e descobrimos que melhorias de desempenho surgem continuamente ao longo de múltiplas iterações para tarefas novas inicialmente não vistas durante o treinamento original do modelo de vídeo em domínio. Além disso, descobrimos que o SAIL é surpreendentemente robusto em relação a se e como a experiência auto-coletada é filtrada, e à qualidade das demonstrações iniciais em domínio. Por meio da adaptação com dados resumidos em escala da internet e do aprendizado por experiência online, demonstramos, assim, uma maneira de inicializar iterativamente um modelo de vídeo de alto desempenho para resolver tarefas robóticas novas por meio da auto-melhoria.
English
Video generative models trained on expert demonstrations have been utilized
as performant text-conditioned visual planners for solving robotic tasks.
However, generalization to unseen tasks remains a challenge. Whereas improved
generalization may be facilitated by leveraging learned prior knowledge from
additional pre-collected offline data sources, such as web-scale video
datasets, in the era of experience we aim to design agents that can
continuously improve in an online manner from self-collected behaviors. In this
work we thus propose the Self-Adapting Improvement Loop (SAIL), where an
in-domain video model iteratively updates itself on self-produced trajectories,
collected through adaptation with an internet-scale pretrained video model, and
steadily improves its performance for a specified task of interest. We apply
SAIL to a diverse suite of MetaWorld tasks, as well as two manipulation tasks
on a real robot arm, and find that performance improvements continuously emerge
over multiple iterations for novel tasks initially unseen during original
in-domain video model training. Furthermore, we discover that SAIL is
surprisingly robust regarding if and how the self-collected experience is
filtered, and the quality of the initial in-domain demonstrations. Through
adaptation with summarized internet-scale data, and learning through online
experience, we thus demonstrate a way to iteratively bootstrap a
high-performance video model for solving novel robotic tasks through
self-improvement.