Sfruttare Dati Non Accoppiati per Modelli Generativi Visione-Linguaggio tramite Ciclo di Consistenza

Abstract

I modelli generativi visione-linguaggio attuali si basano su ampi corpora di dati accoppiati immagine-testo per raggiungere prestazioni ottimali e capacità di generalizzazione. Tuttavia, la raccolta automatica di tali dati (ad esempio tramite scraping su larga scala del web) porta a una bassa qualità e a una scarsa correlazione tra immagini e testo, mentre l'annotazione umana è più accurata ma richiede uno sforzo manuale e un costo significativi. Introduciamo ITIT (InTegrating Image Text): un paradigma di addestramento innovativo basato sul concetto di consistenza ciclica che consente l'addestramento visione-linguaggio su dati immagine e testo non accoppiati. ITIT è composto da un codificatore congiunto immagine-testo con decodificatori separati per immagini e testo che abilitano la generazione bidirezionale da immagine a testo e da testo a immagine in un unico framework. Durante l'addestramento, ITIT sfrutta un piccolo insieme di dati immagine-testo accoppiati per garantire che il suo output corrisponda ragionevolmente bene all'input in entrambe le direzioni. Contemporaneamente, il modello viene addestrato anche su dataset molto più grandi contenenti solo immagini o testi. Questo è ottenuto imponendo la consistenza ciclica tra i campioni non accoppiati originali e le controparti generate ciclicamente. Ad esempio, genera una didascalia per una data immagine di input e poi utilizza la didascalia per creare un'immagine di output, imponendo la somiglianza tra l'immagine di input e quella di output. I nostri esperimenti mostrano che ITIT con dataset non accoppiati presenta un comportamento di scalabilità simile all'uso di dati accoppiati di alta qualità. Dimostriamo prestazioni di generazione di immagini e creazione di didascalie alla pari con i modelli all'avanguardia da testo a immagine e da immagine a testo, utilizzando ordini di grandezza in meno (solo 3M) di dati immagine-testo accoppiati.

English

Current vision-language generative models rely on expansive corpora of paired image-text data to attain optimal performance and generalization capabilities. However, automatically collecting such data (e.g. via large-scale web scraping) leads to low quality and poor image-text correlation, while human annotation is more accurate but requires significant manual effort and expense. We introduce ITIT (InTegrating Image Text): an innovative training paradigm grounded in the concept of cycle consistency which allows vision-language training on unpaired image and text data. ITIT is comprised of a joint image-text encoder with disjoint image and text decoders that enable bidirectional image-to-text and text-to-image generation in a single framework. During training, ITIT leverages a small set of paired image-text data to ensure its output matches the input reasonably well in both directions. Simultaneously, the model is also trained on much larger datasets containing only images or texts. This is achieved by enforcing cycle consistency between the original unpaired samples and the cycle-generated counterparts. For instance, it generates a caption for a given input image and then uses the caption to create an output image, and enforces similarity between the input and output images. Our experiments show that ITIT with unpaired datasets exhibits similar scaling behavior as using high-quality paired data. We demonstrate image generation and captioning performance on par with state-of-the-art text-to-image and image-to-text models with orders of magnitude fewer (only 3M) paired image-text data.

Sfruttare Dati Non Accoppiati per Modelli Generativi Visione-Linguaggio tramite Ciclo di Consistenza

Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency

Abstract

Support