DynaMo: Preentrenamiento de Dinámicas en Dominio para el Control Visuomotor
DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control
September 18, 2024
Autores: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI
Resumen
El aprendizaje por imitación ha demostrado ser una herramienta poderosa para entrenar políticas visuomotoras complejas. Sin embargo, los métodos actuales a menudo requieren cientos o miles de demostraciones de expertos para manejar observaciones visuales de alta dimensionalidad. Una razón clave de esta baja eficiencia de datos es que las representaciones visuales suelen estar predominantemente preentrenadas en datos fuera del dominio o entrenadas directamente a través de un objetivo de clonación de comportamiento. En este trabajo, presentamos DynaMo, un nuevo método auto-supervisado en dominio para aprender representaciones visuales. Dado un conjunto de demostraciones de expertos, aprendemos conjuntamente un modelo latente de dinámica inversa y un modelo de dinámica directa sobre una secuencia de incrustaciones de imágenes, prediciendo el siguiente fotograma en el espacio latente, sin aumentaciones, muestreo contrastivo o acceso a acciones de verdad absoluta. Es importante destacar que DynaMo no requiere ningún dato fuera del dominio, como conjuntos de datos de Internet o conjuntos de datos cruzados. En una serie de seis entornos simulados y reales, mostramos que las representaciones aprendidas con DynaMo mejoran significativamente el rendimiento del aprendizaje por imitación aguas abajo en comparación con objetivos de aprendizaje auto-supervisados anteriores y representaciones preentrenadas. Los beneficios de utilizar DynaMo se mantienen en diferentes clases de políticas como Behavior Transformer, Política de Difusión, MLP y vecinos más cercanos. Por último, realizamos ablación sobre componentes clave de DynaMo y medimos su impacto en el rendimiento de la política aguas abajo. Los videos de robots se pueden ver mejor en https://dynamo-ssl.github.io
English
Imitation learning has proven to be a powerful tool for training complex
visuomotor policies. However, current methods often require hundreds to
thousands of expert demonstrations to handle high-dimensional visual
observations. A key reason for this poor data efficiency is that visual
representations are predominantly either pretrained on out-of-domain data or
trained directly through a behavior cloning objective. In this work, we present
DynaMo, a new in-domain, self-supervised method for learning visual
representations. Given a set of expert demonstrations, we jointly learn a
latent inverse dynamics model and a forward dynamics model over a sequence of
image embeddings, predicting the next frame in latent space, without
augmentations, contrastive sampling, or access to ground truth actions.
Importantly, DynaMo does not require any out-of-domain data such as Internet
datasets or cross-embodied datasets. On a suite of six simulated and real
environments, we show that representations learned with DynaMo significantly
improve downstream imitation learning performance over prior self-supervised
learning objectives, and pretrained representations. Gains from using DynaMo
hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP,
and nearest neighbors. Finally, we ablate over key components of DynaMo and
measure its impact on downstream policy performance. Robot videos are best
viewed at https://dynamo-ssl.github.ioSummary
AI-Generated Summary