ChatPaper.aiChatPaper

UniFusion: 이미지 생성에서 통합 인코더로서의 비전-언어 모델

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

October 14, 2025
저자: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI

초록

최근 시각 생성 분야의 발전은 놀라운 수준이지만, 대부분의 기존 아키텍처는 여전히 이미지와 텍스트를 위한 별도의 인코더에 의존하고 있습니다. 이러한 분리는 확산 모델의 교차 모달 추론 및 지식 전이 능력을 제한합니다. 이러한 격차를 해결하려는 기존의 시도들은 VLM(Vision-Language Model)의 최종 레이어 정보를 사용하거나, 다중 시각 인코더를 활용하거나, 텍스트와 이미지 생성을 위해 대규모 통합 모델을 공동으로 학습하는 방식이 주를 이루었습니다. 그러나 이러한 접근 방식은 상당한 계산 자원과 대규모 데이터를 요구하여 접근성을 제한합니다. 우리는 UniFusion을 제안합니다. 이는 고정된 대형 VLM을 통합 멀티모달 인코더로 활용하는 확산 기반 생성 모델입니다. UniFusion의 핵심은 Layerwise Attention Pooling(LAP) 메커니즘으로, 고정된 VLM의 텍스트 및 시각 토큰에서 고수준의 의미와 저수준의 세부 사항을 모두 추출하여 확산 생성 모델을 조건화합니다. 우리는 LAP가 생성 및 편집을 위한 텍스트-이미지 정렬과 VLM에서 확산 모델로의 시각 정보의 충실한 전이에서 다른 얕은 융합 아키텍처를 능가함을 보여줍니다. 또한, 우리는 VLM-Enabled Rewriting Injection with Flexible Inference(VERIFI)를 제안합니다. 이는 인모델 프롬프트 재작성 중 VLM에 의해 생성된 텍스트 토큰만을 사용하여 확산 트랜스포머(DiT)를 조건화합니다. VERIFI는 조건화 분포의 정렬과 VLM의 추론 능력을 결합하여 추론 시 능력과 유연성을 증가시킵니다. 또한, 편집 작업에 대한 미세 조정은 생성 시 텍스트-이미지 정렬을 개선하여 교차 모달 지식 전이를 나타내는 동시에 엄청난 일반화 능력을 보여줍니다. 우리의 모델은 단일 이미지 편집에 대해 학습할 때, 다중 이미지 참조로 제로샷 일반화를 수행하여 UniFusion의 통합 인코더 설계를 더욱 강력하게 뒷받침합니다.
English
Although recent advances in visual generation have been remarkable, most existing architectures still depend on distinct encoders for images and text. This separation constrains diffusion models' ability to perform cross-modal reasoning and knowledge transfer. Prior attempts to bridge this gap often use the last layer information from VLM, employ multiple visual encoders, or train large unified models jointly for text and image generation, which demands substantial computational resources and large-scale data, limiting its accessibility.We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision-language model (VLM) that serves as a unified multimodal encoder. At the core of UniFusion is the Layerwise Attention Pooling (LAP) mechanism that extracts both high level semantics and low level details from text and visual tokens of a frozen VLM to condition a diffusion generative model. We demonstrate that LAP outperforms other shallow fusion architectures on text-image alignment for generation and faithful transfer of visual information from VLM to the diffusion model which is key for editing. We propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI), which conditions a diffusion transformer (DiT) only on the text tokens generated by the VLM during in-model prompt rewriting. VERIFI combines the alignment of the conditioning distribution with the VLM's reasoning capabilities for increased capabilities and flexibility at inference. In addition, finetuning on editing task not only improves text-image alignment for generation, indicative of cross-modality knowledge transfer, but also exhibits tremendous generalization capabilities. Our model when trained on single image editing, zero-shot generalizes to multiple image references further motivating the unified encoder design of UniFusion.
PDF153October 15, 2025