DynaMo: Voorafgaande training van dynamica in het domein voor visueel-motorische controle

Samenvatting

Imitatieleren heeft zich bewezen als een krachtig instrument voor het trainen van complexe visuomotorische beleidslijnen. Echter, huidige methoden vereisen vaak honderden tot duizenden expertdemonstraties om om te gaan met visuele observaties met een hoog dimensionaal karakter. Een belangrijke reden voor deze slechte gegevensefficiëntie is dat visuele representaties voornamelijk ofwel vooraf getraind zijn op data buiten het domein of rechtstreeks getraind worden via een objectief voor gedragskloon. In dit werk presenteren we DynaMo, een nieuwe in-domein, zelf-supervisie methode voor het leren van visuele representaties. Gegeven een set van expertdemonstraties, leren we gezamenlijk een latente inverse dynamisch model en een voorwaarts dynamisch model over een reeks van beeld-embeddings, waarbij we het volgende frame voorspellen in latente ruimte, zonder augmentaties, contrastieve bemonstering, of toegang tot grondwaarheidacties. Belangrijk is dat DynaMo geen data buiten het domein vereist, zoals internetdatasets of datasets van verschillende lichamen. Op een reeks van zes gesimuleerde en echte omgevingen tonen we aan dat representaties die zijn geleerd met DynaMo aanzienlijk de prestaties van imitatieleren verbeteren ten opzichte van eerdere zelf-supervisie leerdoelen en vooraf getrainde representaties. Voordelen van het gebruik van DynaMo gelden voor beleidsklassen zoals Behavior Transformer, Diffusion Policy, MLP, en dichtstbijzijnde buren. Tot slot voeren we ablatie uit over belangrijke componenten van DynaMo en meten we de impact ervan op de prestaties van beleidslijnen. Robotvideo's zijn het beste te bekijken op https://dynamo-ssl.github.io

English

Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io

DynaMo: Voorafgaande training van dynamica in het domein voor visueel-motorische controle

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

Samenvatting

Support