ChatPaper.aiChatPaper

Sprachinformiertes Lernen visueller Konzepte

Language-Informed Visual Concept Learning

December 6, 2023
Autoren: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI

Zusammenfassung

Unser Verständnis der visuellen Welt dreht sich um verschiedene Konzeptachsen, die unterschiedliche Aspekte visueller Entitäten charakterisieren. Während verschiedene Konzeptachsen leicht durch Sprache spezifiziert werden können, z. B. Farbe, übersteigen die genauen visuellen Nuancen entlang jeder Achse oft die Grenzen sprachlicher Artikulation, z. B. ein bestimmter Malstil. In dieser Arbeit ist unser Ziel, eine sprachinformierte visuelle Konzeptrepräsentation zu lernen, indem wir einfach große, vortrainierte Vision-Language-Modelle destillieren. Konkret trainieren wir eine Reihe von Konzept-Encodern, um die Informationen zu einer Reihe von sprachinformierten Konzeptachsen zu kodieren, mit dem Ziel, das Eingabebild durch ein vortrainiertes Text-to-Image (T2I)-Modell zu reproduzieren. Um eine bessere Entflechtung der verschiedenen Konzept-Encoder zu fördern, verankern wir die Konzept-Einbettungen in einer Reihe von Text-Einbettungen, die aus einem vortrainierten Visual Question Answering (VQA)-Modell gewonnen wurden. Zum Inferenzzeitpunkt extrahiert das Modell Konzept-Einbettungen entlang verschiedener Achsen aus neuen Testbildern, die neu kombiniert werden können, um Bilder mit neuartigen Kompositionen visueller Konzepte zu erzeugen. Mit einem leichtgewichtigen Feinabstimmungsverfahren zur Testzeit kann es auch auf neue Konzepte verallgemeinern, die während des Trainings nicht gesehen wurden.
English
Our understanding of the visual world is centered around various concept axes, characterizing different aspects of visual entities. While different concept axes can be easily specified by language, e.g. color, the exact visual nuances along each axis often exceed the limitations of linguistic articulations, e.g. a particular style of painting. In this work, our goal is to learn a language-informed visual concept representation, by simply distilling large pre-trained vision-language models. Specifically, we train a set of concept encoders to encode the information pertinent to a set of language-informed concept axes, with an objective of reproducing the input image through a pre-trained Text-to-Image (T2I) model. To encourage better disentanglement of different concept encoders, we anchor the concept embeddings to a set of text embeddings obtained from a pre-trained Visual Question Answering (VQA) model. At inference time, the model extracts concept embeddings along various axes from new test images, which can be remixed to generate images with novel compositions of visual concepts. With a lightweight test-time finetuning procedure, it can also generalize to novel concepts unseen at training.
PDF80December 15, 2024