Aprendendo e Aproveitando Modelos do Mundo na Aprendizagem de Representações Visuais
Learning and Leveraging World Models in Visual Representation Learning
March 1, 2024
Autores: Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun
cs.AI
Resumo
A Arquitetura Preditiva de Incorporação Conjunta (JEPA) surgiu como uma abordagem promissora de auto-supervisão que aprende ao aproveitar um modelo de mundo. Embora anteriormente limitada à previsão de partes ausentes de uma entrada, exploramos como generalizar a tarefa de previsão da JEPA para um conjunto mais amplo de corrupções. Introduzimos Modelos de Mundo de Imagem, uma abordagem que vai além da modelagem de imagens mascaradas e aprende a prever o efeito de transformações fotométricas globais no espaço latente. Estudamos a receita para aprender Modelos de Mundo de Imagem (IWMs) eficazes e mostramos que ela se baseia em três aspectos-chave: condicionamento, dificuldade de previsão e capacidade. Além disso, demonstramos que o modelo de mundo preditivo aprendido pelo IWM pode ser adaptado por meio de ajuste fino para resolver diversas tarefas; um modelo de mundo IWM ajustado supera ou iguala o desempenho de métodos anteriores de auto-supervisão. Por fim, mostramos que aprender com um IWM permite controlar o nível de abstração das representações aprendidas, aprendendo representações invariantes, como métodos contrastivos, ou representações equivariantes, como a modelagem de imagens mascaradas.
English
Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising
self-supervised approach that learns by leveraging a world model. While
previously limited to predicting missing parts of an input, we explore how to
generalize the JEPA prediction task to a broader set of corruptions. We
introduce Image World Models, an approach that goes beyond masked image
modeling and learns to predict the effect of global photometric transformations
in latent space. We study the recipe of learning performant IWMs and show that
it relies on three key aspects: conditioning, prediction difficulty, and
capacity. Additionally, we show that the predictive world model learned by IWM
can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM
world model matches or surpasses the performance of previous self-supervised
methods. Finally, we show that learning with an IWM allows one to control the
abstraction level of the learned representations, learning invariant
representations such as contrastive methods, or equivariant representations
such as masked image modelling.