Lernen und Nutzung von Weltmodellen im visuellen Repräsentationslernen

papers.abstract

Die Joint-Embedding Predictive Architecture (JEPA) hat sich als vielversprechender Ansatz des selbstüberwachten Lernens etabliert, der durch die Nutzung eines Weltmodells lernt. Während sie bisher auf die Vorhersage fehlender Teile eines Eingabebildes beschränkt war, untersuchen wir, wie sich die JEPA-Vorhersageaufgabe auf ein breiteres Spektrum von Bildverfälschungen verallgemeinern lässt. Wir stellen Image World Models (IWMs) vor, einen Ansatz, der über das Masked Image Modeling hinausgeht und lernt, die Auswirkungen globaler photometrischer Transformationen im latenten Raum vorherzusagen. Wir untersuchen die Rezeptur für das Erlernen leistungsstarker IWMs und zeigen, dass sie auf drei Schlüsselaspekten beruht: Konditionierung, Vorhersageschwierigkeit und Kapazität. Darüber hinaus zeigen wir, dass das durch IWM erlernte prädiktive Weltmodell durch Feinabstimmung an verschiedene Aufgaben angepasst werden kann; ein feinabgestimmtes IWM-Weltmodell erreicht oder übertrifft die Leistung bisheriger selbstüberwachter Methoden. Schließlich zeigen wir, dass das Lernen mit einem IWM die Kontrolle über den Abstraktionsgrad der erlernten Repräsentationen ermöglicht, sei es das Erlernen invarianter Repräsentationen wie bei kontrastiven Methoden oder äquivarianter Repräsentationen wie beim Masked Image Modeling.

English

Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising self-supervised approach that learns by leveraging a world model. While previously limited to predicting missing parts of an input, we explore how to generalize the JEPA prediction task to a broader set of corruptions. We introduce Image World Models, an approach that goes beyond masked image modeling and learns to predict the effect of global photometric transformations in latent space. We study the recipe of learning performant IWMs and show that it relies on three key aspects: conditioning, prediction difficulty, and capacity. Additionally, we show that the predictive world model learned by IWM can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM world model matches or surpasses the performance of previous self-supervised methods. Finally, we show that learning with an IWM allows one to control the abstraction level of the learned representations, learning invariant representations such as contrastive methods, or equivariant representations such as masked image modelling.

Lernen und Nutzung von Weltmodellen im visuellen Repräsentationslernen

Learning and Leveraging World Models in Visual Representation Learning

papers.abstract

Support