ChatPaper.aiChatPaper

Taalgeïnformeerd Visueel Conceptleren

Language-Informed Visual Concept Learning

December 6, 2023
Auteurs: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

Samenvatting

Ons begrip van de visuele wereld is gecentreerd rond verschillende conceptassen, die verschillende aspecten van visuele entiteiten karakteriseren. Hoewel verschillende conceptassen eenvoudig kunnen worden gespecificeerd door taal, zoals kleur, overstijgen de exacte visuele nuances langs elke as vaak de beperkingen van linguïstische articulaties, zoals een specifieke schilderstijl. In dit werk is ons doel om een taalgeïnformeerde visuele conceptrepresentatie te leren, door simpelweg grote vooraf getrainde visie-taalmodellen te destilleren. Specifiek trainen we een set conceptencoders om de informatie te coderen die relevant is voor een set taalgeïnformeerde conceptassen, met als doel het invoerbeeld te reproduceren via een vooraf getraind tekst-naar-beeld (T2I) model. Om een betere ontvlechting van verschillende conceptencoders aan te moedigen, verankeren we de concept-embeddings aan een set tekst-embeddings die zijn verkregen uit een vooraf getraind visueel vraag-antwoord (VQA) model. Tijdens inferentie extraheert het model concept-embeddings langs verschillende assen uit nieuwe testbeelden, die kunnen worden hergemengd om beelden te genereren met nieuwe composities van visuele concepten. Met een lichtgewicht fine-tuningprocedure tijdens de testfase kan het model ook generaliseren naar nieuwe concepten die niet zijn gezien tijdens de training.
English
Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, the exact visual nuances along each axis often exceed the limitations of linguistic articulations, e.g. a particular style of painting. In this work, our goal is to learn a language-informed visual concept representation, by simply distilling large pre-trained vision-language models. Specifically, we train a set of concept encoders to encode the information pertinent to a set of language-informed concept axes, with an objective of reproducing the input image through a pre-trained Text-to-Image (T2I) model. To encourage better disentanglement of different concept encoders, we anchor the concept embeddings to a set of text embeddings obtained from a pre-trained Visual Question Answering (VQA) model. At inference time, the model extracts concept embeddings along various axes from new test images, which can be remixed to generate images with novel compositions of visual concepts. With a lightweight test-time finetuning procedure, it can also generalize to novel concepts unseen at training.
PDF80December 14, 2025