Использование несопоставленных данных для генеративных моделей "визуальный язык" с помощью цикличной согласованности

Аннотация

Современные генеративные модели, работающие с визуальными и текстовыми данными, требуют обширных корпусов парных изображений и текстов для достижения оптимальной производительности и способности к обобщению. Однако автоматический сбор таких данных (например, с помощью крупномасштабного веб-скрапинга) приводит к низкому качеству и слабой корреляции между изображениями и текстами, в то время как ручная аннотация более точна, но требует значительных усилий и затрат. Мы представляем ITIT (InTegrating Image Text): инновационную парадигму обучения, основанную на концепции цикличной согласованности, которая позволяет обучать модели на непарных изображениях и текстах. ITIT состоит из совместного кодировщика изображений и текстов с раздельными декодерами, которые обеспечивают двунаправленную генерацию изображений из текстов и текстов из изображений в единой структуре. Во время обучения ITIT использует небольшой набор парных изображений и текстов, чтобы гарантировать, что выходные данные достаточно хорошо соответствуют входным в обоих направлениях. Одновременно модель обучается на значительно больших наборах данных, содержащих только изображения или тексты. Это достигается за счет обеспечения цикличной согласованности между исходными непарными образцами и их сгенерированными аналогами. Например, модель генерирует описание для заданного изображения, а затем использует это описание для создания выходного изображения, обеспечивая сходство между входным и выходным изображениями. Наши эксперименты показывают, что ITIT с непарными наборами данных демонстрирует схожее масштабирование, как и при использовании высококачественных парных данных. Мы демонстрируем, что производительность генерации изображений и создания описаний сопоставима с современными моделями для генерации изображений из текстов и текстов из изображений, используя на порядки меньше (всего 3 миллиона) парных изображений и текстов.

English

Current vision-language generative models rely on expansive corpora of paired image-text data to attain optimal performance and generalization capabilities. However, automatically collecting such data (e.g. via large-scale web scraping) leads to low quality and poor image-text correlation, while human annotation is more accurate but requires significant manual effort and expense. We introduce ITIT (InTegrating Image Text): an innovative training paradigm grounded in the concept of cycle consistency which allows vision-language training on unpaired image and text data. ITIT is comprised of a joint image-text encoder with disjoint image and text decoders that enable bidirectional image-to-text and text-to-image generation in a single framework. During training, ITIT leverages a small set of paired image-text data to ensure its output matches the input reasonably well in both directions. Simultaneously, the model is also trained on much larger datasets containing only images or texts. This is achieved by enforcing cycle consistency between the original unpaired samples and the cycle-generated counterparts. For instance, it generates a caption for a given input image and then uses the caption to create an output image, and enforces similarity between the input and output images. Our experiments show that ITIT with unpaired datasets exhibits similar scaling behavior as using high-quality paired data. We demonstrate image generation and captioning performance on par with state-of-the-art text-to-image and image-to-text models with orders of magnitude fewer (only 3M) paired image-text data.

Использование несопоставленных данных для генеративных моделей "визуальный язык" с помощью цикличной согласованности

Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency

Аннотация

Support