ChatPaper.aiChatPaper

DynaMo: Voorafgaande training van dynamica in het domein voor visueel-motorische controle

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

September 18, 2024
Auteurs: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI

Samenvatting

Imitatieleren heeft zich bewezen als een krachtig instrument voor het trainen van complexe visuomotorische beleidslijnen. Echter, huidige methoden vereisen vaak honderden tot duizenden expertdemonstraties om om te gaan met visuele observaties met een hoog dimensionaal karakter. Een belangrijke reden voor deze slechte gegevensefficiëntie is dat visuele representaties voornamelijk ofwel vooraf getraind zijn op data buiten het domein of rechtstreeks getraind worden via een objectief voor gedragskloon. In dit werk presenteren we DynaMo, een nieuwe in-domein, zelf-supervisie methode voor het leren van visuele representaties. Gegeven een set van expertdemonstraties, leren we gezamenlijk een latente inverse dynamisch model en een voorwaarts dynamisch model over een reeks van beeld-embeddings, waarbij we het volgende frame voorspellen in latente ruimte, zonder augmentaties, contrastieve bemonstering, of toegang tot grondwaarheidacties. Belangrijk is dat DynaMo geen data buiten het domein vereist, zoals internetdatasets of datasets van verschillende lichamen. Op een reeks van zes gesimuleerde en echte omgevingen tonen we aan dat representaties die zijn geleerd met DynaMo aanzienlijk de prestaties van imitatieleren verbeteren ten opzichte van eerdere zelf-supervisie leerdoelen en vooraf getrainde representaties. Voordelen van het gebruik van DynaMo gelden voor beleidsklassen zoals Behavior Transformer, Diffusion Policy, MLP, en dichtstbijzijnde buren. Tot slot voeren we ablatie uit over belangrijke componenten van DynaMo en meten we de impact ervan op de prestaties van beleidslijnen. Robotvideo's zijn het beste te bekijken op https://dynamo-ssl.github.io
English
Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io

Summary

AI-Generated Summary

PDF53November 16, 2024