Apprendimento di Concetti Visivi Informato dal Linguaggio
Language-Informed Visual Concept Learning
December 6, 2023
Autori: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
Abstract
La nostra comprensione del mondo visivo si concentra su vari assi concettuali che caratterizzano diversi aspetti delle entità visive. Sebbene diversi assi concettuali possano essere facilmente specificati dal linguaggio, ad esempio il colore, le sfumature visive esatte lungo ciascun asse spesso superano i limiti delle articolazioni linguistiche, come uno stile particolare di pittura. In questo lavoro, il nostro obiettivo è apprendere una rappresentazione visiva dei concetti informata dal linguaggio, semplicemente distillando modelli pre-addestrati di visione e linguaggio. Nello specifico, addestriamo un insieme di encoder concettuali per codificare le informazioni pertinenti a un insieme di assi concettuali informati dal linguaggio, con l'obiettivo di riprodurre l'immagine di input attraverso un modello pre-addestrato di testo-immagine (T2I). Per favorire una migliore separazione dei diversi encoder concettuali, ancoriamo gli embedding concettuali a un insieme di embedding testuali ottenuti da un modello pre-addestrato di risposta a domande visive (VQA). Al momento dell'inferenza, il modello estrae gli embedding concettuali lungo vari assi da nuove immagini di test, che possono essere ricomposti per generare immagini con nuove composizioni di concetti visivi. Con una procedura di fine-tuning leggera al momento del test, il modello può anche generalizzare a nuovi concetti non visti durante l'addestramento.
English
Our understanding of the visual world is centered around various concept
axes, characterizing different aspects of visual entities. While different
concept axes can be easily specified by language, e.g. color, the exact visual
nuances along each axis often exceed the limitations of linguistic
articulations, e.g. a particular style of painting. In this work, our goal is
to learn a language-informed visual concept representation, by simply
distilling large pre-trained vision-language models. Specifically, we train a
set of concept encoders to encode the information pertinent to a set of
language-informed concept axes, with an objective of reproducing the input
image through a pre-trained Text-to-Image (T2I) model. To encourage better
disentanglement of different concept encoders, we anchor the concept embeddings
to a set of text embeddings obtained from a pre-trained Visual Question
Answering (VQA) model. At inference time, the model extracts concept embeddings
along various axes from new test images, which can be remixed to generate
images with novel compositions of visual concepts. With a lightweight test-time
finetuning procedure, it can also generalize to novel concepts unseen at
training.