Het benutten van niet-gepaarde gegevens voor vision-language generatieve modellen via cyclusconsistentie
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency
October 5, 2023
Auteurs: Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan
cs.AI
Samenvatting
Huidige vision-language generatieve modellen zijn afhankelijk van uitgebreide corpora van gepaarde beeld-tekstgegevens om optimale prestaties en generalisatiecapaciteiten te bereiken. Het automatisch verzamelen van dergelijke gegevens (bijvoorbeeld via grootschalige webscraping) resulteert echter in lage kwaliteit en slechte beeld-tekstcorrelatie, terwijl menselijke annotatie nauwkeuriger is maar aanzienlijke handmatige inspanning en kosten vereist. Wij introduceren ITIT (InTegrating Image Text): een innovatief trainingsparadigma gebaseerd op het concept van cyclusconsistentie, dat vision-language training mogelijk maakt op ongepaarde beeld- en tekstgegevens. ITIT bestaat uit een gezamenlijke beeld-tekstencoder met gescheiden beeld- en tekstdecoders die bidirectionele beeld-naar-tekst en tekst-naar-beeldgeneratie mogelijk maken in een enkel raamwerk. Tijdens de training maakt ITIT gebruik van een kleine set gepaarde beeld-tekstgegevens om ervoor te zorgen dat de output redelijk goed overeenkomt met de input in beide richtingen. Tegelijkertijd wordt het model ook getraind op veel grotere datasets die alleen beelden of teksten bevatten. Dit wordt bereikt door cyclusconsistentie af te dwingen tussen de originele ongepaarde samples en de cyclusgegenereerde tegenhangers. Het genereert bijvoorbeeld een bijschrift voor een gegeven inputbeeld en gebruikt vervolgens het bijschrift om een outputbeeld te creëren, en dwingt gelijkenis af tussen de input- en outputbeelden. Onze experimenten tonen aan dat ITIT met ongepaarde datasets een vergelijkbaar schaalgedrag vertoont als het gebruik van hoogwaardige gepaarde gegevens. We demonstreren beeldgeneratie en bijschriftprestaties die op gelijke hoogte staan met state-of-the-art tekst-naar-beeld en beeld-naar-tekstmodellen met een veelvoud minder (slechts 3M) gepaarde beeld-tekstgegevens.
English
Current vision-language generative models rely on expansive corpora of paired
image-text data to attain optimal performance and generalization capabilities.
However, automatically collecting such data (e.g. via large-scale web scraping)
leads to low quality and poor image-text correlation, while human annotation is
more accurate but requires significant manual effort and expense. We introduce
ITIT (InTegrating Image
Text): an innovative training paradigm grounded in the concept of
cycle consistency which allows vision-language training on unpaired image and
text data. ITIT is comprised of a joint image-text encoder with disjoint image
and text decoders that enable bidirectional image-to-text and text-to-image
generation in a single framework. During training, ITIT leverages a small set
of paired image-text data to ensure its output matches the input reasonably
well in both directions. Simultaneously, the model is also trained on much
larger datasets containing only images or texts. This is achieved by enforcing
cycle consistency between the original unpaired samples and the cycle-generated
counterparts. For instance, it generates a caption for a given input image and
then uses the caption to create an output image, and enforces similarity
between the input and output images. Our experiments show that ITIT with
unpaired datasets exhibits similar scaling behavior as using high-quality
paired data. We demonstrate image generation and captioning performance on par
with state-of-the-art text-to-image and image-to-text models with orders of
magnitude fewer (only 3M) paired image-text data.