DynaMo : Pré-entraînement des dynamiques dans le domaine pour le contrôle visuo-moteur
DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control
September 18, 2024
Auteurs: Zichen Jeff Cui, Hengkai Pan, Aadhithya Iyer, Siddhant Haldar, Lerrel Pinto
cs.AI
Résumé
L'apprentissage par imitation s'est révélé être un outil puissant pour entraîner des politiques visuomotrices complexes. Cependant, les méthodes actuelles nécessitent souvent des centaines à des milliers de démonstrations d'experts pour gérer des observations visuelles de haute dimensionnalité. Une raison clé de cette faible efficacité des données est que les représentations visuelles sont principalement soit pré-entraînées sur des données hors domaine, soit entraînées directement via un objectif de clonage de comportement. Dans ce travail, nous présentons DynaMo, une nouvelle méthode auto-supervisée en domaine pour apprendre des représentations visuelles. En utilisant un ensemble de démonstrations d'experts, nous apprenons conjointement un modèle de dynamique inverse latente et un modèle de dynamique directe sur une séquence d'encodages d'images, en prédisant le prochain cadre dans l'espace latent, sans augmentations, échantillonnage contrastif, ou accès aux actions de vérité terrain. Importamment, DynaMo ne nécessite aucune donnée hors domaine telle que des ensembles de données Internet ou des ensembles de données inter-corporés. Sur une série de six environnements simulés et réels, nous montrons que les représentations apprises avec DynaMo améliorent significativement les performances d'apprentissage par imitation en aval par rapport aux objectifs d'apprentissage auto-supervisés antérieurs et aux représentations pré-entraînées. Les avantages de l'utilisation de DynaMo sont observés à travers différentes classes de politiques telles que le Transformateur de Comportement, la Politique de Diffusion, MLP et les plus proches voisins. Enfin, nous faisons des ablations sur les composants clés de DynaMo et mesurons leur impact sur les performances des politiques en aval. Les vidéos de robots sont mieux visualisées sur https://dynamo-ssl.github.io
English
Imitation learning has proven to be a powerful tool for training complex
visuomotor policies. However, current methods often require hundreds to
thousands of expert demonstrations to handle high-dimensional visual
observations. A key reason for this poor data efficiency is that visual
representations are predominantly either pretrained on out-of-domain data or
trained directly through a behavior cloning objective. In this work, we present
DynaMo, a new in-domain, self-supervised method for learning visual
representations. Given a set of expert demonstrations, we jointly learn a
latent inverse dynamics model and a forward dynamics model over a sequence of
image embeddings, predicting the next frame in latent space, without
augmentations, contrastive sampling, or access to ground truth actions.
Importantly, DynaMo does not require any out-of-domain data such as Internet
datasets or cross-embodied datasets. On a suite of six simulated and real
environments, we show that representations learned with DynaMo significantly
improve downstream imitation learning performance over prior self-supervised
learning objectives, and pretrained representations. Gains from using DynaMo
hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP,
and nearest neighbors. Finally, we ablate over key components of DynaMo and
measure its impact on downstream policy performance. Robot videos are best
viewed at https://dynamo-ssl.github.ioSummary
AI-Generated Summary