Nutzung ungepaarter Daten für Vision-Sprache-Generierungsmodelle durch Zyklenkonsistenz
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency
October 5, 2023
papers.authors: Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan
cs.AI
papers.abstract
Aktuelle Vision-Sprache-Generierungsmodelle sind auf umfangreiche Korpora gepaarter Bild-Text-Daten angewiesen, um optimale Leistung und Generalisierungsfähigkeiten zu erreichen. Die automatische Sammlung solcher Daten (z. B. durch groß angelegtes Web-Scraping) führt jedoch zu niedriger Qualität und schlechter Bild-Text-Korrelation, während menschliche Annotation zwar genauer ist, aber erheblichen manuellen Aufwand und Kosten erfordert. Wir stellen ITIT (InTegrating Image Text) vor: ein innovatives Trainingsparadigma, das auf dem Konzept der Zyklenkonsistenz basiert und das Training von Vision-Sprache-Modellen mit ungepaarten Bild- und Textdaten ermöglicht. ITIT besteht aus einem gemeinsamen Bild-Text-Encoder mit getrennten Bild- und Text-Decodern, die bidirektionale Bild-zu-Text- und Text-zu-Bild-Generierung in einem einzigen Framework ermöglichen. Während des Trainings nutzt ITIT eine kleine Menge gepaarter Bild-Text-Daten, um sicherzustellen, dass seine Ausgabe in beide Richtungen angemessen gut mit der Eingabe übereinstimmt. Gleichzeitig wird das Modell auch auf viel größeren Datensätzen trainiert, die nur Bilder oder Texte enthalten. Dies wird durch die Durchsetzung von Zyklenkonsistenz zwischen den ursprünglichen ungepaarten Stichproben und den zyklisch generierten Gegenstücken erreicht. Zum Beispiel generiert es eine Beschreibung für ein gegebenes Eingabebild und verwendet dann die Beschreibung, um ein Ausgabebild zu erstellen, und erzwingt Ähnlichkeit zwischen dem Eingabe- und dem Ausgabebild. Unsere Experimente zeigen, dass ITIT mit ungepaarten Datensätzen ein ähnliches Skalierungsverhalten aufweist wie die Verwendung hochwertiger gepaarter Daten. Wir demonstrieren Bildgenerierungs- und Beschreibungsleistungen, die mit den besten Text-zu-Bild- und Bild-zu-Text-Modellen vergleichbar sind, jedoch mit einer um Größenordnungen geringeren Menge (nur 3 Millionen) gepaarter Bild-Text-Daten.
English
Current vision-language generative models rely on expansive corpora of paired
image-text data to attain optimal performance and generalization capabilities.
However, automatically collecting such data (e.g. via large-scale web scraping)
leads to low quality and poor image-text correlation, while human annotation is
more accurate but requires significant manual effort and expense. We introduce
ITIT (InTegrating Image
Text): an innovative training paradigm grounded in the concept of
cycle consistency which allows vision-language training on unpaired image and
text data. ITIT is comprised of a joint image-text encoder with disjoint image
and text decoders that enable bidirectional image-to-text and text-to-image
generation in a single framework. During training, ITIT leverages a small set
of paired image-text data to ensure its output matches the input reasonably
well in both directions. Simultaneously, the model is also trained on much
larger datasets containing only images or texts. This is achieved by enforcing
cycle consistency between the original unpaired samples and the cycle-generated
counterparts. For instance, it generates a caption for a given input image and
then uses the caption to create an output image, and enforces similarity
between the input and output images. Our experiments show that ITIT with
unpaired datasets exhibits similar scaling behavior as using high-quality
paired data. We demonstrate image generation and captioning performance on par
with state-of-the-art text-to-image and image-to-text models with orders of
magnitude fewer (only 3M) paired image-text data.