DynaMo : Pré-entraînement des dynamiques dans le domaine pour le contrôle visuo-moteur

papers.abstract

L'apprentissage par imitation s'est révélé être un outil puissant pour entraîner des politiques visuomotrices complexes. Cependant, les méthodes actuelles nécessitent souvent des centaines à des milliers de démonstrations d'experts pour gérer des observations visuelles de haute dimensionnalité. Une raison clé de cette faible efficacité des données est que les représentations visuelles sont principalement soit pré-entraînées sur des données hors domaine, soit entraînées directement via un objectif de clonage de comportement. Dans ce travail, nous présentons DynaMo, une nouvelle méthode auto-supervisée en domaine pour apprendre des représentations visuelles. En utilisant un ensemble de démonstrations d'experts, nous apprenons conjointement un modèle de dynamique inverse latente et un modèle de dynamique directe sur une séquence d'encodages d'images, en prédisant le prochain cadre dans l'espace latent, sans augmentations, échantillonnage contrastif, ou accès aux actions de vérité terrain. Importamment, DynaMo ne nécessite aucune donnée hors domaine telle que des ensembles de données Internet ou des ensembles de données inter-corporés. Sur une série de six environnements simulés et réels, nous montrons que les représentations apprises avec DynaMo améliorent significativement les performances d'apprentissage par imitation en aval par rapport aux objectifs d'apprentissage auto-supervisés antérieurs et aux représentations pré-entraînées. Les avantages de l'utilisation de DynaMo sont observés à travers différentes classes de politiques telles que le Transformateur de Comportement, la Politique de Diffusion, MLP et les plus proches voisins. Enfin, nous faisons des ablations sur les composants clés de DynaMo et mesurons leur impact sur les performances des politiques en aval. Les vidéos de robots sont mieux visualisées sur https://dynamo-ssl.github.io

English

Imitation learning has proven to be a powerful tool for training complex visuomotor policies. However, current methods often require hundreds to thousands of expert demonstrations to handle high-dimensional visual observations. A key reason for this poor data efficiency is that visual representations are predominantly either pretrained on out-of-domain data or trained directly through a behavior cloning objective. In this work, we present DynaMo, a new in-domain, self-supervised method for learning visual representations. Given a set of expert demonstrations, we jointly learn a latent inverse dynamics model and a forward dynamics model over a sequence of image embeddings, predicting the next frame in latent space, without augmentations, contrastive sampling, or access to ground truth actions. Importantly, DynaMo does not require any out-of-domain data such as Internet datasets or cross-embodied datasets. On a suite of six simulated and real environments, we show that representations learned with DynaMo significantly improve downstream imitation learning performance over prior self-supervised learning objectives, and pretrained representations. Gains from using DynaMo hold across policy classes such as Behavior Transformer, Diffusion Policy, MLP, and nearest neighbors. Finally, we ablate over key components of DynaMo and measure its impact on downstream policy performance. Robot videos are best viewed at https://dynamo-ssl.github.io

DynaMo : Pré-entraînement des dynamiques dans le domaine pour le contrôle visuo-moteur

DynaMo: In-Domain Dynamics Pretraining for Visuo-Motor Control

papers.abstract

Support