ChatPaper.aiChatPaper

UniFusion: 画像生成における統一エンコーダとしての視覚言語モデル

UniFusion: Vision-Language Model as Unified Encoder in Image Generation

October 14, 2025
著者: Kevin Li, Manuel Brack, Sudeep Katakol, Hareesh Ravi, Ajinkya Kale
cs.AI

要旨

近年、視覚生成の進展は目覚ましいものがあるが、既存のアーキテクチャの多くは依然として画像とテキストのための別個のエンコーダに依存している。この分離は、拡散モデルがクロスモーダル推論や知識転移を行う能力を制約している。このギャップを埋めるための従来の試みでは、VLM(大規模視覚言語モデル)の最終層情報を利用したり、複数の視覚エンコーダを採用したり、テキストと画像生成のための大規模な統合モデルを共同で訓練したりすることが多いが、これらは多大な計算資源と大規模なデータを必要とし、アクセシビリティを制限している。本論文では、凍結された大規模視覚言語モデル(VLM)を統一的なマルチモーダルエンコーダとして利用する、拡散ベースの生成モデルUniFusionを提案する。UniFusionの中核となるのは、凍結されたVLMのテキストおよび視覚トークンから高レベルのセマンティクスと低レベルの詳細を抽出し、拡散生成モデルを条件付けるLayerwise Attention Pooling(LAP)メカニズムである。LAPは、生成におけるテキストと画像の整合性や、VLMから拡散モデルへの視覚情報の忠実な転送において、他の浅い融合アーキテクチャを凌駕することを示す。さらに、VLM-Enabled Rewriting Injection with Flexibile Inference(VERIFI)を提案し、モデル内プロンプト書き換え中にVLMによって生成されたテキストトークンのみを条件として拡散トランスフォーマー(DiT)を条件付ける。VERIFIは、条件付け分布の整合性とVLMの推論能力を組み合わせることで、推論時の能力と柔軟性を向上させる。さらに、編集タスクに対するファインチューニングは、生成におけるテキストと画像の整合性を改善するだけでなく、クロスモダリティ知識転移を示し、驚異的な汎化能力を発揮する。単一画像編集で訓練された我々のモデルは、複数の画像参照に対してゼロショットで汎化し、UniFusionの統一エンコーダ設計をさらに動機づける。
English
Although recent advances in visual generation have been remarkable, most existing architectures still depend on distinct encoders for images and text. This separation constrains diffusion models' ability to perform cross-modal reasoning and knowledge transfer. Prior attempts to bridge this gap often use the last layer information from VLM, employ multiple visual encoders, or train large unified models jointly for text and image generation, which demands substantial computational resources and large-scale data, limiting its accessibility.We present UniFusion, a diffusion-based generative model conditioned on a frozen large vision-language model (VLM) that serves as a unified multimodal encoder. At the core of UniFusion is the Layerwise Attention Pooling (LAP) mechanism that extracts both high level semantics and low level details from text and visual tokens of a frozen VLM to condition a diffusion generative model. We demonstrate that LAP outperforms other shallow fusion architectures on text-image alignment for generation and faithful transfer of visual information from VLM to the diffusion model which is key for editing. We propose VLM-Enabled Rewriting Injection with Flexibile Inference (VERIFI), which conditions a diffusion transformer (DiT) only on the text tokens generated by the VLM during in-model prompt rewriting. VERIFI combines the alignment of the conditioning distribution with the VLM's reasoning capabilities for increased capabilities and flexibility at inference. In addition, finetuning on editing task not only improves text-image alignment for generation, indicative of cross-modality knowledge transfer, but also exhibits tremendous generalization capabilities. Our model when trained on single image editing, zero-shot generalizes to multiple image references further motivating the unified encoder design of UniFusion.
PDF153October 15, 2025