我思う、故に拡散す:拡散モデルにおけるマルチモーダルインコンテキスト推論の実現
I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models
February 12, 2025
著者: Zhenxing Mi, Kuan-Chieh Wang, Guocheng Qian, Hanrong Ye, Runtao Liu, Sergey Tulyakov, Kfir Aberman, Dan Xu
cs.AI
要旨
本論文では、ThinkDiffという新しいアライメントパラダイムを提案する。このパラダイムは、テキストから画像への拡散モデルに、視覚言語モデル(VLM)の強みを統合することで、マルチモーダルな文脈理解と推論能力を付与する。既存のマルチモーダル拡散ファインチューニング手法は、主にピクセルレベルの再構成に焦点を当てており、文脈推論には限定的であり、推論ベースのデータセットの複雑さと利用可能性の制約を受けている。ThinkDiffは、視覚言語トレーニングをプロキシタスクとして活用し、VLMを拡散デコーダではなく、エンコーダ-デコーダ型大規模言語モデル(LLM)のデコーダとアライメントすることで、これらの課題に対処する。このプロキシタスクは、LLMデコーダが、対応するLLMエンコーダを使用してプロンプト埋め込みを行う拡散デコーダと同じ入力特徴空間を共有するという観察に基づいている。その結果、VLMを拡散デコーダとアライメントする作業は、LLMデコーダとのアライメントを通じて簡略化できる。複雑なトレーニングやデータセットを必要とせずに、ThinkDiffは拡散モデルにおける理解、推論、および構成能力を効果的に解放する。実験では、ThinkDiffが、マルチモーダルな文脈推論生成のための難易度の高いCoBSATベンチマークにおいて、精度を19.2%から46.3%に大幅に向上させることが示された。これは、4つのA100 GPUでわずか5時間のトレーニングで達成された。さらに、ThinkDiffは、複数の画像とテキストを論理的に一貫した画像に構成する際にも優れた性能を発揮する。プロジェクトページ:https://mizhenxing.github.io/ThinkDiff。
English
This paper presents ThinkDiff, a novel alignment paradigm that empowers
text-to-image diffusion models with multimodal in-context understanding and
reasoning capabilities by integrating the strengths of vision-language models
(VLMs). Existing multimodal diffusion finetuning methods largely focus on
pixel-level reconstruction rather than in-context reasoning, and are
constrained by the complexity and limited availability of reasoning-based
datasets. ThinkDiff addresses these challenges by leveraging vision-language
training as a proxy task, aligning VLMs with the decoder of an encoder-decoder
large language model (LLM) instead of a diffusion decoder. This proxy task
builds on the observation that the LLM decoder shares the same input
feature space with diffusion decoders that use the corresponding
LLM encoder for prompt embedding. As a result, aligning VLMs with
diffusion decoders can be simplified through alignment with the LLM decoder.
Without complex training and datasets, ThinkDiff effectively unleashes
understanding, reasoning, and composing capabilities in diffusion models.
Experiments demonstrate that ThinkDiff significantly improves accuracy from
19.2% to 46.3% on the challenging CoBSAT benchmark for multimodal in-context
reasoning generation, with only 5 hours of training on 4 A100 GPUs.
Additionally, ThinkDiff demonstrates exceptional performance in composing
multiple images and texts into logically coherent images. Project page:
https://mizhenxing.github.io/ThinkDiff.Summary
AI-Generated Summary