画像生成のためのマルチモーダル表現整列:テキスト-画像相互制御は思っているよりも簡単です
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think
February 27, 2025
著者: Liang Chen, Shuai Bai, Wenhao Chai, Weichu Xie, Haozhe Zhao, Leon Vinci, Junyang Lin, Baobao Chang
cs.AI
要旨
高度なテキストから画像への生成分野では、CLIPやT5などの強力なテキストエンコーダーをDiffusion Transformerのバックボーンと統合する統一されたフレームワークが台頭しています。追加の条件(例:cannyや深度マップ)を使用して出力画像を制御しようとする取り組みはあったものの、任意のテキスト-画像間制御の包括的なフレームワークはまだ不足しています。このギャップは、複数の画像からの概念や視覚要素を生成プロセスで統合しようとする際に特に顕著です。このギャップを緩和するため、大規模なマルチモーダルモデル(LMMs)が画像とテキストを外部拡散モデルの条件として機能する効果的な共有表現空間を提供することを示す予備実験を実施しました。この発見に基づき、任意のテキスト-画像間制御のための効率的で統一されたフレームワークであるDream Engineを提案します。SD3.5などの強力なテキストから画像へのモデルをベースに、QwenVLなどの多目的マルチモーダル情報エンコーダーを組み込むことで、元のテキスト専用エンコーダーを置き換えます。当社のアプローチは、共同テキスト-画像アライメントとマルチモーダル間交互指示チューニングから成る2段階のトレーニングパラダイムを活用しています。実験では、このトレーニング方法が効果的であり、GenEvalベンチマークで全体スコア0.69を達成し、SD3.5やFLUXなどの最先端のテキストから画像へのモデルと同等のパフォーマンスを達成していることが示されました。
English
The field of advanced text-to-image generation is witnessing the emergence of
unified frameworks that integrate powerful text encoders, such as CLIP and T5,
with Diffusion Transformer backbones. Although there have been efforts to
control output images with additional conditions, like canny and depth map, a
comprehensive framework for arbitrary text-image interleaved control is still
lacking. This gap is especially evident when attempting to merge concepts or
visual elements from multiple images in the generation process. To mitigate the
gap, we conducted preliminary experiments showing that large multimodal models
(LMMs) offer an effective shared representation space, where image and text can
be well-aligned to serve as a condition for external diffusion models. Based on
this discovery, we propose Dream Engine, an efficient and unified framework
designed for arbitrary text-image interleaved control in image generation
models. Building on powerful text-to-image models like SD3.5, we replace the
original text-only encoders by incorporating versatile multimodal information
encoders such as QwenVL. Our approach utilizes a two-stage training paradigm,
consisting of joint text-image alignment and multimodal interleaved instruction
tuning. Our experiments demonstrate that this training method is effective,
achieving a 0.69 overall score on the GenEval benchmark, and matching the
performance of state-of-the-art text-to-image models like SD3.5 and FLUX.Summary
AI-Generated Summary