Lernen und Nutzung von Weltmodellen im visuellen Repräsentationslernen
Learning and Leveraging World Models in Visual Representation Learning
March 1, 2024
Autoren: Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun
cs.AI
Zusammenfassung
Die Joint-Embedding Predictive Architecture (JEPA) hat sich als vielversprechender Ansatz des selbstüberwachten Lernens etabliert, der durch die Nutzung eines Weltmodells lernt. Während sie bisher auf die Vorhersage fehlender Teile eines Eingabebildes beschränkt war, untersuchen wir, wie sich die JEPA-Vorhersageaufgabe auf ein breiteres Spektrum von Bildverfälschungen verallgemeinern lässt. Wir stellen Image World Models (IWMs) vor, einen Ansatz, der über das Masked Image Modeling hinausgeht und lernt, die Auswirkungen globaler photometrischer Transformationen im latenten Raum vorherzusagen. Wir untersuchen die Rezeptur für das Erlernen leistungsstarker IWMs und zeigen, dass sie auf drei Schlüsselaspekten beruht: Konditionierung, Vorhersageschwierigkeit und Kapazität. Darüber hinaus zeigen wir, dass das durch IWM erlernte prädiktive Weltmodell durch Feinabstimmung an verschiedene Aufgaben angepasst werden kann; ein feinabgestimmtes IWM-Weltmodell erreicht oder übertrifft die Leistung bisheriger selbstüberwachter Methoden. Schließlich zeigen wir, dass das Lernen mit einem IWM die Kontrolle über den Abstraktionsgrad der erlernten Repräsentationen ermöglicht, sei es das Erlernen invarianter Repräsentationen wie bei kontrastiven Methoden oder äquivarianter Repräsentationen wie beim Masked Image Modeling.
English
Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising
self-supervised approach that learns by leveraging a world model. While
previously limited to predicting missing parts of an input, we explore how to
generalize the JEPA prediction task to a broader set of corruptions. We
introduce Image World Models, an approach that goes beyond masked image
modeling and learns to predict the effect of global photometric transformations
in latent space. We study the recipe of learning performant IWMs and show that
it relies on three key aspects: conditioning, prediction difficulty, and
capacity. Additionally, we show that the predictive world model learned by IWM
can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM
world model matches or surpasses the performance of previous self-supervised
methods. Finally, we show that learning with an IWM allows one to control the
abstraction level of the learned representations, learning invariant
representations such as contrastive methods, or equivariant representations
such as masked image modelling.