ChatPaper.aiChatPaper

Apprentissage des concepts visuels informé par le langage

Language-Informed Visual Concept Learning

December 6, 2023
Auteurs: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

Résumé

Notre compréhension du monde visuel s'articule autour de divers axes conceptuels, caractérisant différents aspects des entités visuelles. Bien que ces axes conceptuels puissent être facilement spécifiés par le langage, par exemple la couleur, les nuances visuelles précises le long de chaque axe dépassent souvent les limites des articulations linguistiques, comme un style de peinture particulier. Dans ce travail, notre objectif est d'apprendre une représentation visuelle des concepts informée par le langage, en distillant simplement de grands modèles vision-langage pré-entraînés. Plus précisément, nous entraînons un ensemble d'encodeurs de concepts pour encoder les informations pertinentes à un ensemble d'axes conceptuels informés par le langage, avec pour objectif de reproduire l'image d'entrée à travers un modèle texte-à-image (T2I) pré-entraîné. Pour favoriser une meilleure dissociation des différents encodeurs de concepts, nous ancrons les embeddings de concepts à un ensemble d'embeddings textuels obtenus à partir d'un modèle de réponse à des questions visuelles (VQA) pré-entraîné. Au moment de l'inférence, le modèle extrait des embeddings de concepts le long de divers axes à partir de nouvelles images de test, qui peuvent être remixées pour générer des images avec des compositions novatrices de concepts visuels. Grâce à une procédure légère de fine-tuning au moment du test, il peut également généraliser à des concepts inédits non vus lors de l'entraînement.
English
Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, the exact visual nuances along each axis often exceed the limitations of linguistic articulations, e.g. a particular style of painting. In this work, our goal is to learn a language-informed visual concept representation, by simply distilling large pre-trained vision-language models. Specifically, we train a set of concept encoders to encode the information pertinent to a set of language-informed concept axes, with an objective of reproducing the input image through a pre-trained Text-to-Image (T2I) model. To encourage better disentanglement of different concept encoders, we anchor the concept embeddings to a set of text embeddings obtained from a pre-trained Visual Question Answering (VQA) model. At inference time, the model extracts concept embeddings along various axes from new test images, which can be remixed to generate images with novel compositions of visual concepts. With a lightweight test-time finetuning procedure, it can also generalize to novel concepts unseen at training.
PDF80December 15, 2024