Языково-ориентированное обучение визуальным концепциям
Language-Informed Visual Concept Learning
December 6, 2023
Авторы: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
Аннотация
Наше понимание визуального мира сосредоточено вокруг различных концептуальных осей, характеризующих разные аспекты визуальных объектов. Хотя различные концептуальные оси могут быть легко заданы с помощью языка, например, цвет, точные визуальные нюансы вдоль каждой оси часто выходят за пределы возможностей языкового выражения, например, определенный стиль живописи. В данной работе наша цель — изучить языково-информированное представление визуальных концепций, просто дистиллируя крупные предобученные модели, объединяющие зрение и язык. В частности, мы обучаем набор кодировщиков концепций для кодирования информации, относящейся к набору языково-информированных концептуальных осей, с целью воспроизведения входного изображения через предобученную модель "Текст-в-Изображение" (T2I). Чтобы способствовать лучшему разделению различных кодировщиков концепций, мы привязываем концептуальные эмбеддинги к набору текстовых эмбеддингов, полученных из предобученной модели "Визуальный Вопрос-Ответ" (VQA). На этапе вывода модель извлекает концептуальные эмбеддинги вдоль различных осей из новых тестовых изображений, которые могут быть перекомбинированы для генерации изображений с новыми композициями визуальных концепций. С помощью легковесной процедуры дообучения на этапе тестирования модель также может обобщать на новые концепции, не встречавшиеся во время обучения.
English
Our understanding of the visual world is centered around various concept
axes, characterizing different aspects of visual entities. While different
concept axes can be easily specified by language, e.g. color, the exact visual
nuances along each axis often exceed the limitations of linguistic
articulations, e.g. a particular style of painting. In this work, our goal is
to learn a language-informed visual concept representation, by simply
distilling large pre-trained vision-language models. Specifically, we train a
set of concept encoders to encode the information pertinent to a set of
language-informed concept axes, with an objective of reproducing the input
image through a pre-trained Text-to-Image (T2I) model. To encourage better
disentanglement of different concept encoders, we anchor the concept embeddings
to a set of text embeddings obtained from a pre-trained Visual Question
Answering (VQA) model. At inference time, the model extracts concept embeddings
along various axes from new test images, which can be remixed to generate
images with novel compositions of visual concepts. With a lightweight test-time
finetuning procedure, it can also generalize to novel concepts unseen at
training.