MMFace-DiT: Een Dual-Stream Diffusion Transformer voor Hoogwaardige Multimodale Gezichtsgeneratie

Samenvatting

Recente multimodale gezichtsgeneratiemodellen adresseren de ruimtelijke controlebeperkingen van tekst-naar-beeld diffusiemodellen door de op tekst gebaseerde conditionering aan te vullen met ruimtelijke priors zoals segmentatiemaskers, schetsen of edge maps. Deze multimodale fusie maakt controleerbare synthese mogelijk die is afgestemd op zowel hoog-niveau semantische intentie als laag-niveau structurele lay-out. De meeste bestaande benaderingen breiden echter typisch vooraf getrainde tekst-naar-beeld pijplijnen uit door aanvullende controlemodules toe te voegen of aparte unimodale netwerken aan elkaar te hechten. Deze ad-hoc-ontwerpen erven architecturale beperkingen, dupliceren parameters en falen vaak bij conflicterende modaliteiten of niet-overeenkomende latente ruimten, wat hun vermogen beperkt om synergetische fusie over semantische en ruimtelijke domeinen uit te voeren. Wij introduceren MMFace-DiT, een verenigde dual-stream diffusie transformer ontworpen voor synergetische multimodale gezichtssynthese. De kernnoviteit ligt in een dual-stream transformerblok dat ruimtelijke (masker/schets) en semantische (tekst) tokens parallel verwerkt en ze diep fuseert door een gedeeld Rotary Position-Embedded (RoPE) Attention-mechanisme. Dit ontwerp voorkomt modaliteitsdominantie en zorgt voor sterke naleving van zowel tekstuele als structurele priors om een ongekende ruimtelijk-semantische consistentie te bereiken voor controleerbare gezichtsgeneratie. Bovendien stelt een nieuwe Modaliteits-Embedder een enkele samenhangende model in staat om dynamisch aan te passen aan variërende ruimtelijke condities zonder hertraining. MMFace-DiT behaalt een 40% verbetering in visuele trouw en promptnaleving ten opzichte van zes state-of-the-art multimodale gezichtsgeneratiemodellen, en vestigt zo een flexibel nieuw paradigma voor end-to-end controleerbaar generatief modelleren. De code en dataset zijn beschikbaar op onze projectpagina: https://vcbsl.github.io/MMFace-DiT/

English

Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/

MMFace-DiT: Een Dual-Stream Diffusion Transformer voor Hoogwaardige Multimodale Gezichtsgeneratie

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Samenvatting

Support