DynaMo: Voorafgaande training van dynamica in het domein voor visueel-motorische controle
DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control
September 18, 2024
Auteurs: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI
Samenvatting
Imitatieleren heeft zich bewezen als een krachtig instrument voor het trainen van complexe visuomotorische beleidslijnen. Echter, huidige methoden vereisen vaak honderden tot duizenden expertdemonstraties om om te gaan met visuele observaties met een hoog dimensionaal karakter. Een belangrijke reden voor deze slechte gegevensefficiëntie is dat visuele representaties voornamelijk ofwel vooraf getraind zijn op data buiten het domein of rechtstreeks getraind worden via een objectief voor gedragskloon. In dit werk presenteren we DynaMo, een nieuwe in-domein, zelf-supervisie methode voor het leren van visuele representaties. Gegeven een set van expertdemonstraties, leren we gezamenlijk een latente inverse dynamisch model en een voorwaarts dynamisch model over een reeks van beeld-embeddings, waarbij we het volgende frame voorspellen in latente ruimte, zonder augmentaties, contrastieve bemonstering, of toegang tot grondwaarheidacties. Belangrijk is dat DynaMo geen data buiten het domein vereist, zoals internetdatasets of datasets van verschillende lichamen. Op een reeks van zes gesimuleerde en echte omgevingen tonen we aan dat representaties die zijn geleerd met DynaMo aanzienlijk de prestaties van imitatieleren verbeteren ten opzichte van eerdere zelf-supervisie leerdoelen en vooraf getrainde representaties. Voordelen van het gebruik van DynaMo gelden voor beleidsklassen zoals Behavior Transformer, Diffusion Policy, MLP, en dichtstbijzijnde buren. Tot slot voeren we ablatie uit over belangrijke componenten van DynaMo en meten we de impact ervan op de prestaties van beleidslijnen. Robotvideo's zijn het beste te bekijken op https://dynamo-ssl.github.io
English
Imitation learning has proven to be a powerful tool for training complex
visuomotor policies. However, current methods often require hundreds to
thousands of expert demonstrations to handle high-dimensional visual
observations. A key reason for this poor data efficiency is that visual
representations are predominantly either pretrained on out-of-domain data or
trained directly through a behavior cloning objective. In this work, we present
DynaMo, a new in-domain, self-supervised method for learning visual
representations. Given a set of expert demonstrations, we jointly learn a
latent inverse dynamics model and a forward dynamics model over a sequence of
image embeddings, predicting the next frame in latent space, without
augmentations, contrastive sampling, or access to ground truth actions.
Importantly, DynaMo does not require any out-of-domain data such as Internet
datasets or cross-embodied datasets. On a suite of six simulated and real
environments, we show that representations learned with DynaMo significantly
improve downstream imitation learning performance over prior self-supervised
learning objectives, and pretrained representations. Gains from using DynaMo
hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP,
and nearest neighbors. Finally, we ablate over key components of DynaMo and
measure its impact on downstream policy performance. Robot videos are best
viewed at https://dynamo-ssl.github.ioSummary
AI-Generated Summary