Exploitation des données non appariées pour les modèles génératifs vision-langage via la cohérence cyclique
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency
October 5, 2023
papers.authors: Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan
cs.AI
papers.abstract
Les modèles génératifs actuels en vision et langage reposent sur des corpus étendus de données image-texte appariées pour atteindre des performances optimales et des capacités de généralisation. Cependant, la collecte automatique de telles données (par exemple, via le scraping web à grande échelle) conduit à une faible qualité et à une mauvaise corrélation image-texte, tandis que l'annotation humaine, bien que plus précise, nécessite un effort manuel et des coûts significatifs. Nous présentons ITIT (InTegrating Image Text) : un paradigme d'entraînement innovant basé sur le concept de cohérence cyclique, qui permet l'entraînement en vision et langage sur des données image et texte non appariées. ITIT est composé d'un encodeur conjoint image-texte avec des décodeurs disjoints pour l'image et le texte, permettant une génération bidirectionnelle image-texte et texte-image dans un seul cadre. Pendant l'entraînement, ITIT exploite un petit ensemble de données image-texte appariées pour s'assurer que sa sortie correspond raisonnablement bien à l'entrée dans les deux directions. Simultanément, le modèle est également entraîné sur des ensembles de données beaucoup plus vastes contenant uniquement des images ou des textes. Cela est réalisé en imposant une cohérence cyclique entre les échantillons non appariés originaux et leurs contreparties générées cycliquement. Par exemple, il génère une légende pour une image d'entrée donnée, puis utilise cette légende pour créer une image de sortie, et impose une similarité entre l'image d'entrée et l'image de sortie. Nos expériences montrent qu'ITIT avec des ensembles de données non appariés présente un comportement de mise à l'échelle similaire à celui obtenu avec des données appariées de haute qualité. Nous démontrons des performances en génération d'images et en légendage comparables aux modèles de pointe en texte-image et image-texte, avec des ordres de grandeur moins de données image-texte appariées (seulement 3 millions).
English
Current vision-language generative models rely on expansive corpora of paired
image-text data to attain optimal performance and generalization capabilities.
However, automatically collecting such data (e.g. via large-scale web scraping)
leads to low quality and poor image-text correlation, while human annotation is
more accurate but requires significant manual effort and expense. We introduce
ITIT (InTegrating Image
Text): an innovative training paradigm grounded in the concept of
cycle consistency which allows vision-language training on unpaired image and
text data. ITIT is comprised of a joint image-text encoder with disjoint image
and text decoders that enable bidirectional image-to-text and text-to-image
generation in a single framework. During training, ITIT leverages a small set
of paired image-text data to ensure its output matches the input reasonably
well in both directions. Simultaneously, the model is also trained on much
larger datasets containing only images or texts. This is achieved by enforcing
cycle consistency between the original unpaired samples and the cycle-generated
counterparts. For instance, it generates a caption for a given input image and
then uses the caption to create an output image, and enforces similarity
between the input and output images. Our experiments show that ITIT with
unpaired datasets exhibits similar scaling behavior as using high-quality
paired data. We demonstrate image generation and captioning performance on par
with state-of-the-art text-to-image and image-to-text models with orders of
magnitude fewer (only 3M) paired image-text data.