Aprendizado de Conceitos Visuais Informado pela Linguagem
Language-Informed Visual Concept Learning
December 6, 2023
Autores: Sharon Lee, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu
cs.AI
Resumo
Nossa compreensão do mundo visual é centrada em torno de vários eixos conceituais, que caracterizam diferentes aspectos das entidades visuais. Embora diferentes eixos conceituais possam ser facilmente especificados pela linguagem, por exemplo, cor, as nuances visuais exatas ao longo de cada eixo frequentemente ultrapassam as limitações das articulações linguísticas, como um estilo particular de pintura. Neste trabalho, nosso objetivo é aprender uma representação visual de conceitos informada pela linguagem, simplesmente destilando modelos pré-treinados de visão e linguagem. Especificamente, treinamos um conjunto de codificadores de conceitos para codificar as informações pertinentes a um conjunto de eixos conceituais informados pela linguagem, com o objetivo de reproduzir a imagem de entrada por meio de um modelo pré-treinado de Texto para Imagem (T2I). Para incentivar uma melhor separação dos diferentes codificadores de conceitos, ancoramos os embeddings de conceitos a um conjunto de embeddings de texto obtidos de um modelo pré-treinado de Resposta a Perguntas Visuais (VQA). No momento da inferência, o modelo extrai embeddings de conceitos ao longo de vários eixos de novas imagens de teste, que podem ser recombinados para gerar imagens com composições novas de conceitos visuais. Com um procedimento leve de ajuste fino em tempo de teste, o modelo também pode generalizar para novos conceitos não vistos durante o treinamento.
English
Our understanding of the visual world is centered around various concept
axes, characterizing different aspects of visual entities. While different
concept axes can be easily specified by language, e.g. color, the exact visual
nuances along each axis often exceed the limitations of linguistic
articulations, e.g. a particular style of painting. In this work, our goal is
to learn a language-informed visual concept representation, by simply
distilling large pre-trained vision-language models. Specifically, we train a
set of concept encoders to encode the information pertinent to a set of
language-informed concept axes, with an objective of reproducing the input
image through a pre-trained Text-to-Image (T2I) model. To encourage better
disentanglement of different concept encoders, we anchor the concept embeddings
to a set of text embeddings obtained from a pre-trained Visual Question
Answering (VQA) model. At inference time, the model extracts concept embeddings
along various axes from new test images, which can be remixed to generate
images with novel compositions of visual concepts. With a lightweight test-time
finetuning procedure, it can also generalize to novel concepts unseen at
training.