Apprendimento e Sfruttamento di Modelli del Mondo nell'Apprendimento di Rappresentazioni Visive

Abstract

La Joint-Embedding Predictive Architecture (JEPA) è emersa come un approccio promettente nell'apprendimento auto-supervisionato che sfrutta un modello del mondo. Mentre in precedenza era limitata alla previsione di parti mancanti di un input, esploriamo come generalizzare il compito di previsione della JEPA a un insieme più ampio di corruzioni. Introduciamo Image World Models (IWM), un approccio che va oltre il masked image modeling e impara a prevedere l'effetto di trasformazioni fotometriche globali nello spazio latente. Studiamo la ricetta per apprendere IWM performanti e dimostriamo che si basa su tre aspetti chiave: condizionamento, difficoltà di previsione e capacità. Inoltre, mostriamo che il modello del mondo predittivo appreso da IWM può essere adattato attraverso il fine-tuning per risolvere compiti diversi; un modello del mondo IWM fine-tuned eguaglia o supera le prestazioni dei precedenti metodi auto-supervisionati. Infine, dimostriamo che l'apprendimento con un IWM consente di controllare il livello di astrazione delle rappresentazioni apprese, apprendendo rappresentazioni invarianti come nei metodi contrastivi, o rappresentazioni equivarianti come nel masked image modeling.

English

Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising self-supervised approach that learns by leveraging a world model. While previously limited to predicting missing parts of an input, we explore how to generalize the JEPA prediction task to a broader set of corruptions. We introduce Image World Models, an approach that goes beyond masked image modeling and learns to predict the effect of global photometric transformations in latent space. We study the recipe of learning performant IWMs and show that it relies on three key aspects: conditioning, prediction difficulty, and capacity. Additionally, we show that the predictive world model learned by IWM can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM world model matches or surpasses the performance of previous self-supervised methods. Finally, we show that learning with an IWM allows one to control the abstraction level of the learned representations, learning invariant representations such as contrastive methods, or equivariant representations such as masked image modelling.

Apprendimento e Sfruttamento di Modelli del Mondo nell'Apprendimento di Rappresentazioni Visive

Learning and Leveraging World Models in Visual Representation Learning

Abstract

Support