Leren en benutten van wereldmodellen in visuele representatieleer

Samenvatting

Joint-Embedding Predictive Architecture (JEPA) is naar voren gekomen als een veelbelovende zelf-superviserende benadering die leert door gebruik te maken van een wereldmodel. Terwijl het voorheen beperkt was tot het voorspellen van ontbrekende delen van een invoer, onderzoeken we hoe de JEPA-voorspellingstaak kan worden gegeneraliseerd naar een breder scala van corrupties. We introduceren Image World Models, een benadering die verder gaat dan gemaskeerde beeldmodellering en leert om het effect van globale fotometrische transformaties in de latente ruimte te voorspellen. We bestuderen de methode om performante IWM's te leren en tonen aan dat deze steunt op drie cruciale aspecten: conditionering, voorspellingsmoeilijkheid en capaciteit. Daarnaast laten we zien dat het voorspellende wereldmodel dat door IWM wordt geleerd, kan worden aangepast door middel van finetuning om diverse taken op te lossen; een gefinetuned IWM-wereldmodel evenaart of overtreft de prestaties van eerdere zelf-superviserende methoden. Tot slot tonen we aan dat leren met een IWM het mogelijk maakt om het abstractieniveau van de geleerde representaties te beheersen, waarbij invariante representaties worden geleerd zoals bij contrastieve methoden, of equivariante representaties zoals bij gemaskeerde beeldmodellering.

English

Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising self-supervised approach that learns by leveraging a world model. While previously limited to predicting missing parts of an input, we explore how to generalize the JEPA prediction task to a broader set of corruptions. We introduce Image World Models, an approach that goes beyond masked image modeling and learns to predict the effect of global photometric transformations in latent space. We study the recipe of learning performant IWMs and show that it relies on three key aspects: conditioning, prediction difficulty, and capacity. Additionally, we show that the predictive world model learned by IWM can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM world model matches or surpasses the performance of previous self-supervised methods. Finally, we show that learning with an IWM allows one to control the abstraction level of the learned representations, learning invariant representations such as contrastive methods, or equivariant representations such as masked image modelling.

Leren en benutten van wereldmodellen in visuele representatieleer

Learning and Leveraging World Models in Visual Representation Learning

Samenvatting

Support