DREAM: Где визуальное понимание встречается с генерацией изображений из текста

Аннотация

Объединение обучения визуальных представлений и генерации изображений по тексту (T2I) в рамках единой модели остается ключевой задачей многомодального обучения. Мы представляем DREAM — унифицированную архитектуру, которая совместно оптимизирует дискриминативные и генеративные цели, одновременно обучая качественные визуальные представления. DREAM основана на двух ключевых методах: во время обучения **Masking Warmup**, прогрессивный график маскирования, начинается с минимального маскирования для установления контрастивного выравнивания, необходимого для обучения представлений, а затем постепенно переходит к полному маскированию для стабильного генеративного обучения. На этапе вывода DREAM использует **Semantically Aligned Decoding** для согласования частично замаскированных кандидатов изображений с целевым текстом и выбора наилучшего варианта для дальнейшего декодирования, что повышает соответствие текста и изображения (+6,3%) без внешних реранкеров. Обученная исключительно на CC12M, модель DREAM достигает точности 72,7% при линейном probe-тестировании на ImageNet (+1,1% относительно CLIP) и FID 4,25 (+6,2% относительно FLUID), с устойчивым улучшением в few-shot классификации, семантической сегментации и оценке глубины. Эти результаты демонстрируют, что дискриминативные и генеративные цели могут быть синергетическими, позволяя создавать унифицированные многомодальные модели, превосходящие как в визуальном понимании, так и в генерации.

English

Unifying visual representation learning and text-to-image (T2I) generation within a single model remains a central challenge in multimodal learning. We introduce DREAM, a unified framework that jointly optimizes discriminative and generative objectives, while learning strong visual representations. DREAM is built on two key techniques: During training, Masking Warmup, a progressive masking schedule, begins with minimal masking to establish the contrastive alignment necessary for representation learning, then gradually transitions to full masking for stable generative training. At inference, DREAM employs Semantically Aligned Decoding to align partially masked image candidates with the target text and select the best one for further decoding, improving text-image fidelity (+6.3%) without external rerankers. Trained solely on CC12M, DREAM achieves 72.7% ImageNet linear-probing accuracy (+1.1% over CLIP) and an FID of 4.25 (+6.2% over FLUID), with consistent gains in few-shot classification, semantic segmentation, and depth estimation. These results demonstrate that discriminative and generative objectives can be synergistic, allowing unified multimodal models that excel at both visual understanding and generation.

DREAM: Где визуальное понимание встречается с генерацией изображений из текста

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Аннотация

Support