Aprendizaje y Aprovechamiento de Modelos del Mundo en el Aprendizaje de Representaciones Visuales
Learning and Leveraging World Models in Visual Representation Learning
March 1, 2024
Autores: Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun
cs.AI
Resumen
La Arquitectura Predictiva de Incrustación Conjunta (JEPA, por sus siglas en inglés) ha surgido como un enfoque prometedor de aprendizaje autosupervisado que aprende aprovechando un modelo del mundo. Aunque anteriormente se limitaba a predecir partes faltantes de una entrada, exploramos cómo generalizar la tarea de predicción de JEPA a un conjunto más amplio de corrupciones. Introducimos Modelos del Mundo de Imágenes (IWM, por sus siglas en inglés), un enfoque que va más allá del modelado de imágenes enmascaradas y aprende a predecir el efecto de transformaciones fotométricas globales en el espacio latente. Estudiamos la receta para aprender IWM eficaces y demostramos que se basa en tres aspectos clave: condicionamiento, dificultad de predicción y capacidad. Además, mostramos que el modelo del mundo predictivo aprendido por IWM puede adaptarse mediante ajuste fino para resolver diversas tareas; un modelo del mundo IWM ajustado iguala o supera el rendimiento de métodos autosupervisados anteriores. Finalmente, demostramos que el aprendizaje con un IWM permite controlar el nivel de abstracción de las representaciones aprendidas, aprendiendo representaciones invariantes como los métodos contrastivos, o representaciones equivariantes como el modelado de imágenes enmascaradas.
English
Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising
self-supervised approach that learns by leveraging a world model. While
previously limited to predicting missing parts of an input, we explore how to
generalize the JEPA prediction task to a broader set of corruptions. We
introduce Image World Models, an approach that goes beyond masked image
modeling and learns to predict the effect of global photometric transformations
in latent space. We study the recipe of learning performant IWMs and show that
it relies on three key aspects: conditioning, prediction difficulty, and
capacity. Additionally, we show that the predictive world model learned by IWM
can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM
world model matches or surpasses the performance of previous self-supervised
methods. Finally, we show that learning with an IWM allows one to control the
abstraction level of the learned representations, learning invariant
representations such as contrastive methods, or equivariant representations
such as masked image modelling.