Обучение и использование мировых моделей в обучении визуальным представлениям.
Learning and Leveraging World Models in Visual Representation Learning
March 1, 2024
Авторы: Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, Yann LeCun
cs.AI
Аннотация
Архитектура совместного вложения предсказаний (JEPA) стала многообещающим самообучающимся подходом, который учится, используя модель мира. В то время как ранее ограничивалась предсказанием отсутствующих частей ввода, мы исследуем, как обобщить задачу предсказания JEPA на более широкий набор искажений. Мы представляем модели мира изображений, подход, который выходит за рамки моделирования маскированных изображений и учится предсказывать эффект глобальных фотометрических преобразований в скрытом пространстве. Мы изучаем рецепт обучения производительных моделей миров изображений и показываем, что он зависит от трех ключевых аспектов: условий, сложности предсказания и емкости. Кроме того, мы показываем, что предсказательная модель мира, изученная с помощью моделей миров изображений, может быть адаптирована путем дообучения для решения различных задач; дообученная модель мира IWM соответствует или превосходит производительность предыдущих самообучающихся методов. Наконец, мы показываем, что обучение с использованием моделей миров изображений позволяет контролировать уровень абстракции изученных представлений, обучая инвариантные представления, такие как контрастные методы, или эквариантные представления, такие как моделирование маскированных изображений.
English
Joint-Embedding Predictive Architecture (JEPA) has emerged as a promising
self-supervised approach that learns by leveraging a world model. While
previously limited to predicting missing parts of an input, we explore how to
generalize the JEPA prediction task to a broader set of corruptions. We
introduce Image World Models, an approach that goes beyond masked image
modeling and learns to predict the effect of global photometric transformations
in latent space. We study the recipe of learning performant IWMs and show that
it relies on three key aspects: conditioning, prediction difficulty, and
capacity. Additionally, we show that the predictive world model learned by IWM
can be adapted through finetuning to solve diverse tasks; a fine-tuned IWM
world model matches or surpasses the performance of previous self-supervised
methods. Finally, we show that learning with an IWM allows one to control the
abstraction level of the learned representations, learning invariant
representations such as contrastive methods, or equivariant representations
such as masked image modelling.