Apprentissage et exploitation de modèles du monde dans l'apprentissage de représentations visuelles
Learning and Leveraging World Models in Visual Representation Learning
March 1, 2024
papers.authors: Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun
cs.AI
papers.abstract
L'architecture prédictive à codage conjoint (Joint-Embedding Predictive Architecture, JEPA) s'est imposée comme une approche prometteuse en apprentissage auto-supervisé, apprenant en exploitant un modèle du monde. Alors qu'elle était auparavant limitée à la prédiction de parties manquantes d'une entrée, nous explorons comment généraliser la tâche de prédiction de la JEPA à un ensemble plus large de corruptions. Nous introduisons les modèles du monde d'images (Image World Models, IWM), une approche qui va au-delà de la modélisation d'images masquées et apprend à prédire l'effet de transformations photométriques globales dans l'espace latent. Nous étudions la recette pour apprendre des IWM performants et montrons qu'elle repose sur trois aspects clés : le conditionnement, la difficulté de prédiction et la capacité. De plus, nous montrons que le modèle du monde prédictif appris par les IWM peut être adapté par affinage pour résoudre des tâches variées ; un modèle du monde IWM affiné égal ou dépasse les performances des méthodes auto-supervisées précédentes. Enfin, nous montrons que l'apprentissage avec un IWM permet de contrôler le niveau d'abstraction des représentations apprises, apprenant des représentations invariantes comme les méthodes contrastives, ou des représentations équivariantes comme la modélisation d'images masquées.
English
Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising
self-supervised approach that learns by leveraging a world model. While
previously limited to predicting missing parts of an input, we explore how to
generalize the JEPA prediction task to a broader set of corruptions. We
introduce Image World Models, an approach that goes beyond masked image
modeling and learns to predict the effect of global photometric transformations
in latent space. We study the recipe of learning performant IWMs and show that
it relies on three key aspects: conditioning, prediction difficulty, and
capacity. Additionally, we show that the predictive world model learned by IWM
can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM
world model matches or surpasses the performance of previous self-supervised
methods. Finally, we show that learning with an IWM allows one to control the
abstraction level of the learned representations, learning invariant
representations such as contrastive methods, or equivariant representations
such as masked image modelling.