Aprendizaje de Conceptos Visuales Informado por el Lenguaje
Language-Informed Visual Concept Learning
December 6, 2023
Autores: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
Resumen
Nuestra comprensión del mundo visual se centra en diversos ejes conceptuales que caracterizan diferentes aspectos de las entidades visuales. Si bien los distintos ejes conceptuales pueden especificarse fácilmente mediante el lenguaje, por ejemplo, el color, los matices visuales exactos a lo largo de cada eje a menudo superan las limitaciones de las articulaciones lingüísticas, como un estilo particular de pintura. En este trabajo, nuestro objetivo es aprender una representación de conceptos visuales informada por el lenguaje, simplemente destilando grandes modelos preentrenados de visión y lenguaje. Específicamente, entrenamos un conjunto de codificadores de conceptos para codificar la información relevante a un conjunto de ejes conceptuales informados por el lenguaje, con el objetivo de reproducir la imagen de entrada a través de un modelo preentrenado de Texto a Imagen (T2I). Para fomentar una mejor desentrelazamiento de los diferentes codificadores de conceptos, anclamos los embeddings de conceptos a un conjunto de embeddings de texto obtenidos de un modelo preentrenado de Respuesta a Preguntas Visuales (VQA). En el momento de la inferencia, el modelo extrae embeddings de conceptos a lo largo de varios ejes de nuevas imágenes de prueba, que pueden recombinarse para generar imágenes con composiciones novedosas de conceptos visuales. Con un procedimiento ligero de ajuste en tiempo de prueba, también puede generalizar a conceptos novedosos no vistos durante el entrenamiento.
English
Our understanding of the visual world is centered around various concept
axes, characterizing different aspects of visual entities. While different
concept axes can be easily specified by language, e.g. color, the exact visual
nuances along each axis often exceed the limitations of linguistic
articulations, e.g. a particular style of painting. In this work, our goal is
to learn a language-informed visual concept representation, by simply
distilling large pre-trained vision-language models. Specifically, we train a
set of concept encoders to encode the information pertinent to a set of
language-informed concept axes, with an objective of reproducing the input
image through a pre-trained Text-to-Image (T2I) model. To encourage better
disentanglement of different concept encoders, we anchor the concept embeddings
to a set of text embeddings obtained from a pre-trained Visual Question
Answering (VQA) model. At inference time, the model extracts concept embeddings
along various axes from new test images, which can be remixed to generate
images with novel compositions of visual concepts. With a lightweight test-time
finetuning procedure, it can also generalize to novel concepts unseen at
training.