Leren en benutten van wereldmodellen in visuele representatieleer
Learning and Leveraging World Models in Visual Representation Learning
March 1, 2024
Auteurs: Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun
cs.AI
Samenvatting
Joint-Embedding Predictive Architecture (JEPA) is naar voren gekomen als een veelbelovende zelf-superviserende benadering die leert door gebruik te maken van een wereldmodel. Terwijl het voorheen beperkt was tot het voorspellen van ontbrekende delen van een invoer, onderzoeken we hoe de JEPA-voorspellingstaak kan worden gegeneraliseerd naar een breder scala van corrupties. We introduceren Image World Models, een benadering die verder gaat dan gemaskeerde beeldmodellering en leert om het effect van globale fotometrische transformaties in de latente ruimte te voorspellen. We bestuderen de methode om performante IWM's te leren en tonen aan dat deze steunt op drie cruciale aspecten: conditionering, voorspellingsmoeilijkheid en capaciteit. Daarnaast laten we zien dat het voorspellende wereldmodel dat door IWM wordt geleerd, kan worden aangepast door middel van finetuning om diverse taken op te lossen; een gefinetuned IWM-wereldmodel evenaart of overtreft de prestaties van eerdere zelf-superviserende methoden. Tot slot tonen we aan dat leren met een IWM het mogelijk maakt om het abstractieniveau van de geleerde representaties te beheersen, waarbij invariante representaties worden geleerd zoals bij contrastieve methoden, of equivariante representaties zoals bij gemaskeerde beeldmodellering.
English
Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising
self-supervised approach that learns by leveraging a world model. While
previously limited to predicting missing parts of an input, we explore how to
generalize the JEPA prediction task to a broader set of corruptions. We
introduce Image World Models, an approach that goes beyond masked image
modeling and learns to predict the effect of global photometric transformations
in latent space. We study the recipe of learning performant IWMs and show that
it relies on three key aspects: conditioning, prediction difficulty, and
capacity. Additionally, we show that the predictive world model learned by IWM
can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM
world model matches or surpasses the performance of previous self-supervised
methods. Finally, we show that learning with an IWM allows one to control the
abstraction level of the learned representations, learning invariant
representations such as contrastive methods, or equivariant representations
such as masked image modelling.