DynaMo: Preallenamento della dinamica nel dominio per il controllo visuo-motorio
DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control
September 18, 2024
Autori: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI
Abstract
L'apprendimento per imitazione si è dimostrato uno strumento potente per addestrare politiche visuomotorie complesse. Tuttavia, i metodi attuali spesso richiedono centinaia o migliaia di dimostrazioni di esperti per gestire osservazioni visive ad alta dimensionalità. Una delle principali ragioni di questa scarsa efficienza dei dati è che le rappresentazioni visive sono prevalentemente preaddestrate su dati fuori dominio o addestrate direttamente attraverso un obiettivo di clonazione del comportamento. In questo lavoro, presentiamo DynaMo, un nuovo metodo in-dominio e auto-supervisionato per imparare rappresentazioni visive. Dato un insieme di dimostrazioni di esperti, apprendiamo congiuntamente un modello di dinamica inversa latente e un modello di dinamica diretta su una sequenza di incorporamenti di immagini, prevedendo il frame successivo nello spazio latente, senza aumenti, campionamento contrastivo o accesso ad azioni veritiere. È importante sottolineare che DynaMo non richiede alcun dato fuori dominio come set di dati Internet o set di dati incrociati. Su una serie di sei ambienti simulati e reali, mostriamo che le rappresentazioni apprese con DynaMo migliorano significativamente le prestazioni dell'apprendimento per imitazione a valle rispetto agli obiettivi di apprendimento auto-supervisionati precedenti e alle rappresentazioni preaddestrate. I vantaggi derivanti dall'uso di DynaMo si applicano a diverse classi di politiche come Behavior Transformer, Diffusion Policy, MLP e vicini più prossimi. Infine, analizziamo i componenti chiave di DynaMo e misuriamo il suo impatto sulle prestazioni delle politiche a valle. I video dei robot sono meglio visualizzati su https://dynamo-ssl.github.io
English
Imitation learning has proven to be a powerful tool for training complex
visuomotor policies. However, current methods often require hundreds to
thousands of expert demonstrations to handle high-dimensional visual
observations. A key reason for this poor data efficiency is that visual
representations are predominantly either pretrained on out-of-domain data or
trained directly through a behavior cloning objective. In this work, we present
DynaMo, a new in-domain, self-supervised method for learning visual
representations. Given a set of expert demonstrations, we jointly learn a
latent inverse dynamics model and a forward dynamics model over a sequence of
image embeddings, predicting the next frame in latent space, without
augmentations, contrastive sampling, or access to ground truth actions.
Importantly, DynaMo does not require any out-of-domain data such as Internet
datasets or cross-embodied datasets. On a suite of six simulated and real
environments, we show that representations learned with DynaMo significantly
improve downstream imitation learning performance over prior self-supervised
learning objectives, and pretrained representations. Gains from using DynaMo
hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP,
and nearest neighbors. Finally, we ablate over key components of DynaMo and
measure its impact on downstream policy performance. Robot videos are best
viewed at https://dynamo-ssl.github.ioSummary
AI-Generated Summary