DynaMo: Pré-treinamento de Dinâmicas no Domínio para Controle Visuo-Motor

Resumo

A aprendizagem por imitação tem se mostrado uma ferramenta poderosa para treinar políticas visuomotoras complexas. No entanto, os métodos atuais frequentemente exigem centenas a milhares de demonstrações de especialistas para lidar com observações visuais de alta dimensão. Uma razão chave para essa baixa eficiência de dados é que as representações visuais são predominantemente pré-treinadas em dados fora do domínio ou treinadas diretamente por meio de um objetivo de clonagem de comportamento. Neste trabalho, apresentamos o DynaMo, um novo método auto-supervisionado in-domain para aprender representações visuais. Dado um conjunto de demonstrações de especialistas, aprendemos em conjunto um modelo latente de dinâmica inversa e um modelo de dinâmica direta ao longo de uma sequência de incorporações de imagem, prevendo o próximo quadro no espaço latente, sem augmentations, amostragem constrastiva ou acesso a ações verdadeiras. Importante ressaltar que o DynaMo não requer nenhum dado fora do domínio, como conjuntos de dados da Internet ou conjuntos de dados cruzados. Em uma série de seis ambientes simulados e reais, mostramos que as representações aprendidas com o DynaMo melhoram significativamente o desempenho da aprendizagem por imitação em tarefas subsequentes em relação aos objetivos de aprendizagem auto-supervisionada anteriores e representações pré-treinadas. Os benefícios do uso do DynaMo se aplicam a diversas classes de políticas, como Behavior Transformer, Política de Difusão, MLP e vizinhos mais próximos. Por fim, realizamos ablação sobre os componentes-chave do DynaMo e medimos seu impacto no desempenho da política subsequente. Os vídeos dos robôs são melhor visualizados em https://dynamo-ssl.github.io

English

Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io

DynaMo: Pré-treinamento de Dinâmicas no Domínio para Controle Visuo-Motor

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

Resumo

Support