MMFace-DiT: Ein Dual-Stream Diffusions-Transformer für hochgradig authentische multimodale Gesichtsgenerierung

Zusammenfassung

Aktuelle multimodale Gesichtsgenerierungsmodelle adressieren die räumlichen Kontrollbeschränkungen von Text-zu-Bild-Diffusionsmodellen, indem sie die textbasierte Konditionierung mit räumlichen Priori-Informationen wie Segmentierungsmasken, Skizzen oder Kantenkarten erweitern. Diese multimodale Fusion ermöglicht eine steuerbare Synthese, die sowohl mit der hochgradigen semantischen Intention als auch mit dem niedriggradigen strukturellen Layout übereinstimmt. Die meisten bestehenden Ansätze erweitern jedoch typischerweise vortrainierte Text-zu-Bild-Pipelines, indem sie zusätzliche Kontrollmodule anfügen oder separate unimodale Netzwerke zusammenfügen. Diese Ad-hoc-Designs erben architektonische Einschränkungen, duplizieren Parameter und versagen häufig bei konfligierenden Modalitäten oder nicht übereinstimmenden latenten Räumen, was ihre Fähigkeit zur synergetischen Fusion über semantische und räumliche Domänen hinweg einschränkt. Wir stellen MMFace-DiT vor, einen vereinheitlichten Dual-Stream-Diffusion-Transformer, der für die synergetische multimodale Gesichtssynthese entwickelt wurde. Seine Kernneuheit liegt in einem Dual-Stream-Transformer-Block, der räumliche (Maske/Skizze) und semantische (Text) Tokens parallel verarbeitet und sie tiefgehend durch einen gemeinsamen Rotary-Position-Embedded (RoPE)-Attention-Mechanismus fusioniert. Dieses Design verhindert die Dominanz einer Modalität und gewährleistet eine starke Ausrichtung an sowohl Text- als auch Struktur-Priori-Informationen, um eine beispiellose räumlich-semantische Konsistenz für die steuerbare Gesichtsgenerierung zu erreichen. Darüber hinaus ermöglicht ein neuartiger Modalitäts-Embedder einem einzigen kohäsiven Modell, sich dynamisch an variierende räumliche Bedingungen anzupassen, ohne neu trainiert zu werden. MMFace-DiT erzielt eine 40 %ige Verbesserung der visuellen Treue und Prompt-Ausrichtung gegenüber sechs state-of-the-art multimodalen Gesichtsgenerierungsmodellen und etabliert damit ein neues, flexibles Paradigma für end-to-end steuerbare generative Modellierung. Der Code und der Datensatz sind auf unserer Projektseite verfügbar: https://vcbsl.github.io/MMFace-DiT/

English

Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/

MMFace-DiT: Ein Dual-Stream Diffusions-Transformer für hochgradig authentische multimodale Gesichtsgenerierung

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Zusammenfassung

Support