Taalgeïnformeerd Visueel Conceptleren
Language-Informed Visual Concept Learning
December 6, 2023
Auteurs: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
Samenvatting
Ons begrip van de visuele wereld is gecentreerd rond verschillende conceptassen, die verschillende aspecten van visuele entiteiten karakteriseren. Hoewel verschillende conceptassen eenvoudig kunnen worden gespecificeerd door taal, zoals kleur, overstijgen de exacte visuele nuances langs elke as vaak de beperkingen van linguïstische articulaties, zoals een specifieke schilderstijl. In dit werk is ons doel om een taalgeïnformeerde visuele conceptrepresentatie te leren, door simpelweg grote vooraf getrainde visie-taalmodellen te destilleren. Specifiek trainen we een set conceptencoders om de informatie te coderen die relevant is voor een set taalgeïnformeerde conceptassen, met als doel het invoerbeeld te reproduceren via een vooraf getraind tekst-naar-beeld (T2I) model. Om een betere ontvlechting van verschillende conceptencoders aan te moedigen, verankeren we de concept-embeddings aan een set tekst-embeddings die zijn verkregen uit een vooraf getraind visueel vraag-antwoord (VQA) model. Tijdens inferentie extraheert het model concept-embeddings langs verschillende assen uit nieuwe testbeelden, die kunnen worden hergemengd om beelden te genereren met nieuwe composities van visuele concepten. Met een lichtgewicht fine-tuningprocedure tijdens de testfase kan het model ook generaliseren naar nieuwe concepten die niet zijn gezien tijdens de training.
English
Our understanding of the visual world is centered around various concept
axes, characterizing different aspects of visual entities. While different
concept axes can be easily specified by language, e.g. color, the exact visual
nuances along each axis often exceed the limitations of linguistic
articulations, e.g. a particular style of painting. In this work, our goal is
to learn a language-informed visual concept representation, by simply
distilling large pre-trained vision-language models. Specifically, we train a
set of concept encoders to encode the information pertinent to a set of
language-informed concept axes, with an objective of reproducing the input
image through a pre-trained Text-to-Image (T2I) model. To encourage better
disentanglement of different concept encoders, we anchor the concept embeddings
to a set of text embeddings obtained from a pre-trained Visual Question
Answering (VQA) model. At inference time, the model extracts concept embeddings
along various axes from new test images, which can be remixed to generate
images with novel compositions of visual concepts. With a lightweight test-time
finetuning procedure, it can also generalize to novel concepts unseen at
training.