ChatPaper.aiChatPaper

UniFusion: Модель обработки визуальных и текстовых данных как унифицированный кодировщик в генерации изображений

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

October 14, 2025
Авторы: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI

Аннотация

Несмотря на значительные успехи в области визуальной генерации, большинство существующих архитектур по-прежнему зависят от отдельных кодировщиков для изображений и текста. Это разделение ограничивает способность диффузионных моделей выполнять кросс-модальные рассуждения и передачу знаний. Предыдущие попытки преодолеть этот разрыв часто использовали информацию из последнего слоя VLM, применяли несколько визуальных кодировщиков или обучали крупные унифицированные модели совместно для генерации текста и изображений, что требует значительных вычислительных ресурсов и больших объемов данных, ограничивая доступность. Мы представляем UniFusion, диффузионную генеративную модель, основанную на замороженной крупной модели визуального языка (VLM), которая служит унифицированным мультимодальным кодировщиком. В основе UniFusion лежит механизм Layerwise Attention Pooling (LAP), который извлекает как высокоуровневую семантику, так и низкоуровневые детали из текстовых и визуальных токенов замороженной VLM для управления диффузионной генеративной моделью. Мы показываем, что LAP превосходит другие архитектуры с поверхностным слиянием в выравнивании текста и изображения для генерации и точной передачи визуальной информации от VLM к диффузионной модели, что важно для редактирования. Мы предлагаем VLM-Enabled Rewriting Injection with Flexible Inference (VERIFI), который управляет диффузионным трансформером (DiT) только на основе текстовых токенов, сгенерированных VLM во время переписывания запроса внутри модели. VERIFI сочетает выравнивание распределения условий с возможностями рассуждения VLM для повышения возможностей и гибкости на этапе вывода. Кроме того, дообучение на задаче редактирования не только улучшает выравнивание текста и изображения для генерации, что указывает на передачу кросс-модальных знаний, но также демонстрирует огромные обобщающие способности. Наша модель, обученная на редактировании одного изображения, обобщается на несколько изображений в режиме zero-shot, что дополнительно мотивирует унифицированный дизайн кодировщика UniFusion.
English
Although recent advances in visual generation have been remarkable, most existing architectures still depend on distinct encoders for images and text. This separation constrains diffusion models' ability to perform cross-modal reasoning and knowledge transfer. Prior attempts to bridge this gap often use the last layer information from VLM, employ multiple visual encoders, or train large unified models jointly for text and image generation, which demands substantial computational resources and large-scale data, limiting its accessibility.We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision-language model (VLM) that serves as a unified multimodal encoder. At the core of UniFusion is the Layerwise Attention Pooling (LAP) mechanism that extracts both high level semantics and low level details from text and visual tokens of a frozen VLM to condition a diffusion generative model. We demonstrate that LAP outperforms other shallow fusion architectures on text-image alignment for generation and faithful transfer of visual information from VLM to the diffusion model which is key for editing. We propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI), which conditions a diffusion transformer (DiT) only on the text tokens generated by the VLM during in-model prompt rewriting. VERIFI combines the alignment of the conditioning distribution with the VLM's reasoning capabilities for increased capabilities and flexibility at inference. In addition, finetuning on editing task not only improves text-image alignment for generation, indicative of cross-modality knowledge transfer, but also exhibits tremendous generalization capabilities. Our model when trained on single image editing, zero-shot generalizes to multiple image references further motivating the unified encoder design of UniFusion.
PDF153October 15, 2025