MMFace-DiT: 高忠実度マルチモーダル顔生成のためのデュアルストリーム拡散トランスフォーマー
MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation
March 30, 2026
著者: Bharath Krishnamurthy, Ajita Rattani
cs.AI
要旨
近年のマルチモーダル顔生成モデルは、セグメンテーションマスク、スケッチ、エッジマップなどの空間事前情報をテキストベースの条件付けに追加することで、テキストから画像への拡散モデルが抱える空間制御の限界に取り組んでいる。このマルチモーダル融合により、高レベルの意味的意図と低レベルの構造的レイアウトの両方に整合した制御可能な合成が実現する。しかし、既存手法の多くは、事前学習済みテキスト画像パイプラインを補助制御モジュールで拡張するか、あるいは単一モーダルネットワークを接合する方式が一般的である。こうしたアドホックな設計は、元のアーキテクチャ制約を継承し、パラメータが重複するため、モダリティ間の矛盾や潜在空間の不一致が生じると機能不全に陥りやすく、意味領域と空間領域にわたる協調的融合を実現する能力が限られている。本研究では、協調的マルチモーダル顔合成のために設計された統一的双方向拡散トランスフォーマーMMFace-DiTを提案する。その中核的な新規性は、空間的(マスク/スケッチ)トークンと意味的(テキスト)トークンを並列処理し、共有のRoPE注意機構を通じて深く融合する双方向トランスフォーマーブロックにある。この設計は特定モダリティの優位性を防止し、テキストと構造的事前情報の双方への強固な忠実性を保証することで、制御可能な顔生成において前例のない空間-意味的一貫性を実現する。さらに、新規のモダリティ埋め込み器により、単一の統合モデルが再学習なしで多様な空間条件に動的に適応可能となる。MMFace-DiTは、6つの最先端マルチモーダル顔生成モデルに対し、視覚的忠実度とプロンプト整合性において40%の改善を達成し、エンドツーエンドの制御可能生成モデリングにおける柔軟な新たなパラダイムを確立した。コードとデータセットはプロジェクトページ(https://vcbsl.github.io/MMFace-DiT/)で公開されている。
English
Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/