Apprentissage des concepts visuels informé par le langage
Language-Informed Visual Concept Learning
December 6, 2023
Auteurs: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
Résumé
Notre compréhension du monde visuel s'articule autour de divers axes conceptuels, caractérisant différents aspects des entités visuelles. Bien que ces axes conceptuels puissent être facilement spécifiés par le langage, par exemple la couleur, les nuances visuelles précises le long de chaque axe dépassent souvent les limites des articulations linguistiques, comme un style de peinture particulier. Dans ce travail, notre objectif est d'apprendre une représentation visuelle des concepts informée par le langage, en distillant simplement de grands modèles vision-langage pré-entraînés. Plus précisément, nous entraînons un ensemble d'encodeurs de concepts pour encoder les informations pertinentes à un ensemble d'axes conceptuels informés par le langage, avec pour objectif de reproduire l'image d'entrée à travers un modèle texte-à-image (T2I) pré-entraîné. Pour favoriser une meilleure dissociation des différents encodeurs de concepts, nous ancrons les embeddings de concepts à un ensemble d'embeddings textuels obtenus à partir d'un modèle de réponse à des questions visuelles (VQA) pré-entraîné. Au moment de l'inférence, le modèle extrait des embeddings de concepts le long de divers axes à partir de nouvelles images de test, qui peuvent être remixées pour générer des images avec des compositions novatrices de concepts visuels. Grâce à une procédure légère de fine-tuning au moment du test, il peut également généraliser à des concepts inédits non vus lors de l'entraînement.
English
Our understanding of the visual world is centered around various concept
axes, characterizing different aspects of visual entities. While different
concept axes can be easily specified by language, e.g. color, the exact visual
nuances along each axis often exceed the limitations of linguistic
articulations, e.g. a particular style of painting. In this work, our goal is
to learn a language-informed visual concept representation, by simply
distilling large pre-trained vision-language models. Specifically, we train a
set of concept encoders to encode the information pertinent to a set of
language-informed concept axes, with an objective of reproducing the input
image through a pre-trained Text-to-Image (T2I) model. To encourage better
disentanglement of different concept encoders, we anchor the concept embeddings
to a set of text embeddings obtained from a pre-trained Visual Question
Answering (VQA) model. At inference time, the model extracts concept embeddings
along various axes from new test images, which can be remixed to generate
images with novel compositions of visual concepts. With a lightweight test-time
finetuning procedure, it can also generalize to novel concepts unseen at
training.