Aprendizaje de Conceptos Visuales Informado por el Lenguaje

Resumen

Nuestra comprensión del mundo visual se centra en diversos ejes conceptuales que caracterizan diferentes aspectos de las entidades visuales. Si bien los distintos ejes conceptuales pueden especificarse fácilmente mediante el lenguaje, por ejemplo, el color, los matices visuales exactos a lo largo de cada eje a menudo superan las limitaciones de las articulaciones lingüísticas, como un estilo particular de pintura. En este trabajo, nuestro objetivo es aprender una representación de conceptos visuales informada por el lenguaje, simplemente destilando grandes modelos preentrenados de visión y lenguaje. Específicamente, entrenamos un conjunto de codificadores de conceptos para codificar la información relevante a un conjunto de ejes conceptuales informados por el lenguaje, con el objetivo de reproducir la imagen de entrada a través de un modelo preentrenado de Texto a Imagen (T2I). Para fomentar una mejor desentrelazamiento de los diferentes codificadores de conceptos, anclamos los embeddings de conceptos a un conjunto de embeddings de texto obtenidos de un modelo preentrenado de Respuesta a Preguntas Visuales (VQA). En el momento de la inferencia, el modelo extrae embeddings de conceptos a lo largo de varios ejes de nuevas imágenes de prueba, que pueden recombinarse para generar imágenes con composiciones novedosas de conceptos visuales. Con un procedimiento ligero de ajuste en tiempo de prueba, también puede generalizar a conceptos novedosos no vistos durante el entrenamiento.

English

Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, the exact visual nuances along each axis often exceed the limitations of linguistic articulations, e.g. a particular style of painting. In this work, our goal is to learn a language-informed visual concept representation, by simply distilling large pre-trained vision-language models. Specifically, we train a set of concept encoders to encode the information pertinent to a set of language-informed concept axes, with an objective of reproducing the input image through a pre-trained Text-to-Image (T2I) model. To encourage better disentanglement of different concept encoders, we anchor the concept embeddings to a set of text embeddings obtained from a pre-trained Visual Question Answering (VQA) model. At inference time, the model extracts concept embeddings along various axes from new test images, which can be remixed to generate images with novel compositions of visual concepts. With a lightweight test-time finetuning procedure, it can also generalize to novel concepts unseen at training.

Aprendizaje de Conceptos Visuales Informado por el Lenguaje

Language-Informed Visual Concept Learning

Resumen

Support