Aprendendo e Aproveitando Modelos do Mundo na Aprendizagem de Representações Visuais

Resumo

A Arquitetura Preditiva de Incorporação Conjunta (JEPA) surgiu como uma abordagem promissora de auto-supervisão que aprende ao aproveitar um modelo de mundo. Embora anteriormente limitada à previsão de partes ausentes de uma entrada, exploramos como generalizar a tarefa de previsão da JEPA para um conjunto mais amplo de corrupções. Introduzimos Modelos de Mundo de Imagem, uma abordagem que vai além da modelagem de imagens mascaradas e aprende a prever o efeito de transformações fotométricas globais no espaço latente. Estudamos a receita para aprender Modelos de Mundo de Imagem (IWMs) eficazes e mostramos que ela se baseia em três aspectos-chave: condicionamento, dificuldade de previsão e capacidade. Além disso, demonstramos que o modelo de mundo preditivo aprendido pelo IWM pode ser adaptado por meio de ajuste fino para resolver diversas tarefas; um modelo de mundo IWM ajustado supera ou iguala o desempenho de métodos anteriores de auto-supervisão. Por fim, mostramos que aprender com um IWM permite controlar o nível de abstração das representações aprendidas, aprendendo representações invariantes, como métodos contrastivos, ou representações equivariantes, como a modelagem de imagens mascaradas.

English

Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising self-supervised approach that learns by leveraging a world model. While previously limited to predicting missing parts of an input, we explore how to generalize the JEPA prediction task to a broader set of corruptions. We introduce Image World Models, an approach that goes beyond masked image modeling and learns to predict the effect of global photometric transformations in latent space. We study the recipe of learning performant IWMs and show that it relies on three key aspects: conditioning, prediction difficulty, and capacity. Additionally, we show that the predictive world model learned by IWM can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM world model matches or surpasses the performance of previous self-supervised methods. Finally, we show that learning with an IWM allows one to control the abstraction level of the learned representations, learning invariant representations such as contrastive methods, or equivariant representations such as masked image modelling.

Aprendendo e Aproveitando Modelos do Mundo na Aprendizagem de Representações Visuais

Learning and Leveraging World Models in Visual Representation Learning

Resumo

Support