ChatPaper.aiChatPaper

DynaMo: Preallenamento della dinamica nel dominio per il controllo visuo-motorio

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

September 18, 2024
Autori: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI

Abstract

L'apprendimento per imitazione si è dimostrato uno strumento potente per addestrare politiche visuomotorie complesse. Tuttavia, i metodi attuali spesso richiedono centinaia o migliaia di dimostrazioni di esperti per gestire osservazioni visive ad alta dimensionalità. Una delle principali ragioni di questa scarsa efficienza dei dati è che le rappresentazioni visive sono prevalentemente preaddestrate su dati fuori dominio o addestrate direttamente attraverso un obiettivo di clonazione del comportamento. In questo lavoro, presentiamo DynaMo, un nuovo metodo in-dominio e auto-supervisionato per imparare rappresentazioni visive. Dato un insieme di dimostrazioni di esperti, apprendiamo congiuntamente un modello di dinamica inversa latente e un modello di dinamica diretta su una sequenza di incorporamenti di immagini, prevedendo il frame successivo nello spazio latente, senza aumenti, campionamento contrastivo o accesso ad azioni veritiere. È importante sottolineare che DynaMo non richiede alcun dato fuori dominio come set di dati Internet o set di dati incrociati. Su una serie di sei ambienti simulati e reali, mostriamo che le rappresentazioni apprese con DynaMo migliorano significativamente le prestazioni dell'apprendimento per imitazione a valle rispetto agli obiettivi di apprendimento auto-supervisionati precedenti e alle rappresentazioni preaddestrate. I vantaggi derivanti dall'uso di DynaMo si applicano a diverse classi di politiche come Behavior Transformer, Diffusion Policy, MLP e vicini più prossimi. Infine, analizziamo i componenti chiave di DynaMo e misuriamo il suo impatto sulle prestazioni delle politiche a valle. I video dei robot sono meglio visualizzati su https://dynamo-ssl.github.io
English
Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io

Summary

AI-Generated Summary

PDF53November 16, 2024