DynaMo: Pré-treinamento de Dinâmicas no Domínio para Controle Visuo-Motor
DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control
September 18, 2024
Autores: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI
Resumo
A aprendizagem por imitação tem se mostrado uma ferramenta poderosa para treinar políticas visuomotoras complexas. No entanto, os métodos atuais frequentemente exigem centenas a milhares de demonstrações de especialistas para lidar com observações visuais de alta dimensão. Uma razão chave para essa baixa eficiência de dados é que as representações visuais são predominantemente pré-treinadas em dados fora do domínio ou treinadas diretamente por meio de um objetivo de clonagem de comportamento. Neste trabalho, apresentamos o DynaMo, um novo método auto-supervisionado in-domain para aprender representações visuais. Dado um conjunto de demonstrações de especialistas, aprendemos em conjunto um modelo latente de dinâmica inversa e um modelo de dinâmica direta ao longo de uma sequência de incorporações de imagem, prevendo o próximo quadro no espaço latente, sem augmentations, amostragem constrastiva ou acesso a ações verdadeiras. Importante ressaltar que o DynaMo não requer nenhum dado fora do domínio, como conjuntos de dados da Internet ou conjuntos de dados cruzados. Em uma série de seis ambientes simulados e reais, mostramos que as representações aprendidas com o DynaMo melhoram significativamente o desempenho da aprendizagem por imitação em tarefas subsequentes em relação aos objetivos de aprendizagem auto-supervisionada anteriores e representações pré-treinadas. Os benefícios do uso do DynaMo se aplicam a diversas classes de políticas, como Behavior Transformer, Política de Difusão, MLP e vizinhos mais próximos. Por fim, realizamos ablação sobre os componentes-chave do DynaMo e medimos seu impacto no desempenho da política subsequente. Os vídeos dos robôs são melhor visualizados em https://dynamo-ssl.github.io
English
Imitation learning has proven to be a powerful tool for training complex
visuomotor policies. However, current methods often require hundreds to
thousands of expert demonstrations to handle high-dimensional visual
observations. A key reason for this poor data efficiency is that visual
representations are predominantly either pretrained on out-of-domain data or
trained directly through a behavior cloning objective. In this work, we present
DynaMo, a new in-domain, self-supervised method for learning visual
representations. Given a set of expert demonstrations, we jointly learn a
latent inverse dynamics model and a forward dynamics model over a sequence of
image embeddings, predicting the next frame in latent space, without
augmentations, contrastive sampling, or access to ground truth actions.
Importantly, DynaMo does not require any out-of-domain data such as Internet
datasets or cross-embodied datasets. On a suite of six simulated and real
environments, we show that representations learned with DynaMo significantly
improve downstream imitation learning performance over prior self-supervised
learning objectives, and pretrained representations. Gains from using DynaMo
hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP,
and nearest neighbors. Finally, we ablate over key components of DynaMo and
measure its impact on downstream policy performance. Robot videos are best
viewed at https://dynamo-ssl.github.ioSummary
AI-Generated Summary