Aproveitando Dados Não Pareados para Modelos Gerativos de Visão e Linguagem por meio de Consistência Cíclica
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency
October 5, 2023
Autores: Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan
cs.AI
Resumo
Os modelos generativos visão-linguagem atuais dependem de grandes corpora de dados pareados de imagem-texto para alcançar desempenho e capacidades de generalização ideais. No entanto, a coleta automática desses dados (por exemplo, por meio de scraping em larga escala na web) resulta em baixa qualidade e correlação inadequada entre imagem e texto, enquanto a anotação humana é mais precisa, mas exige esforço manual e custo significativos. Apresentamos o ITIT (InTegrating Image Text): um paradigma de treinamento inovador baseado no conceito de consistência cíclica, que permite o treinamento visão-linguagem com dados de imagem e texto não pareados. O ITIT é composto por um codificador conjunto de imagem-texto com decodificadores separados de imagem e texto, que permitem a geração bidirecional de imagem para texto e texto para imagem em um único framework. Durante o treinamento, o ITIT utiliza um pequeno conjunto de dados pareados de imagem-texto para garantir que sua saída corresponda razoavelmente bem à entrada em ambas as direções. Simultaneamente, o modelo também é treinado em conjuntos de dados muito maiores contendo apenas imagens ou textos. Isso é alcançado aplicando a consistência cíclica entre as amostras não pareadas originais e suas contrapartes geradas ciclicamente. Por exemplo, ele gera uma legenda para uma imagem de entrada e, em seguida, usa a legenda para criar uma imagem de saída, impondo similaridade entre a imagem de entrada e a de saída. Nossos experimentos mostram que o ITIT com conjuntos de dados não pareados exibe comportamento de escalonamento semelhante ao uso de dados pareados de alta qualidade. Demonstramos desempenho de geração de imagens e legendas comparável aos modelos state-of-the-art de texto para imagem e imagem para texto, utilizando ordens de magnitude menos dados pareados de imagem-texto (apenas 3M).
English
Current vision-language generative models rely on expansive corpora of paired
image-text data to attain optimal performance and generalization capabilities.
However, automatically collecting such data (e.g. via large-scale web scraping)
leads to low quality and poor image-text correlation, while human annotation is
more accurate but requires significant manual effort and expense. We introduce
ITIT (InTegrating Image
Text): an innovative training paradigm grounded in the concept of
cycle consistency which allows vision-language training on unpaired image and
text data. ITIT is comprised of a joint image-text encoder with disjoint image
and text decoders that enable bidirectional image-to-text and text-to-image
generation in a single framework. During training, ITIT leverages a small set
of paired image-text data to ensure its output matches the input reasonably
well in both directions. Simultaneously, the model is also trained on much
larger datasets containing only images or texts. This is achieved by enforcing
cycle consistency between the original unpaired samples and the cycle-generated
counterparts. For instance, it generates a caption for a given input image and
then uses the caption to create an output image, and enforces similarity
between the input and output images. Our experiments show that ITIT with
unpaired datasets exhibits similar scaling behavior as using high-quality
paired data. We demonstrate image generation and captioning performance on par
with state-of-the-art text-to-image and image-to-text models with orders of
magnitude fewer (only 3M) paired image-text data.