MMFace-DiT: Un Trasformatore a Diffusione Dual-Stream per la Generazione di Volti Multimodale ad Alta Fedeltà

Abstract

I recenti modelli multimodali per la generazione di volti affrontano le limitazioni del controllo spaziale dei modelli di diffusione testo-immagine integrando il condizionamento testuale con informazioni spaziali come maschere di segmentazione, schizzi o mappe dei bordi. Questa fusione multimodale consente una sintesi controllata allineata sia con l'intento semantico di alto livello che con il layout strutturale di basso livello. Tuttavia, la maggior parte degli approcci esistenti estende generalmente le pipeline pre-addestrate testo-immagine aggiungendo moduli di controllo ausiliari o unendo insieme reti separate unimodali. Questi progetti ad hoc ereditano vincoli architetturali, duplicano parametri e spesso falliscono in caso di modalità conflittuali o spazi latenti non corrispondenti, limitando la loro capacità di eseguire una fusione sinergica tra domini semantici e spaziali. Introduciamo MMFace-DiT, un transformer di diffusione dual-stream unificato progettato per la sintesi multimodale sinergica di volti. La sua principale novità risiede in un blocco transformer dual-stream che elabora in parallelo i token spaziali (maschera/schizzo) e semantici (testo), fondendoli profondamente attraverso un meccanismo di attenzione condiviso basato su Rotary Position Embedding (RoPE). Questo progetto previene la dominanza modale e garantisce una forte aderenza sia al testo che ai priors strutturali, raggiungendo una coerenza spaziale-semantica senza precedenti per la generazione controllata di volti. Inoltre, un nuovo Modality Embedder consente a un unico modello coeso di adattarsi dinamicamente a varie condizioni spaziali senza bisogno di riaddestramento. MMFace-DiT raggiunge un miglioramento del 40% nella fedeltà visiva e nell'allineamento al prompt rispetto a sei modelli multimodali all'avanguardia per la generazione di volti, stabilendo un nuovo paradigma flessibile per la modellazione generativa controllata end-to-end. Il codice e il dataset sono disponibili sulla nostra pagina progetto: https://vcbsl.github.io/MMFace-DiT/

English

Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/

MMFace-DiT: Un Trasformatore a Diffusione Dual-Stream per la Generazione di Volti Multimodale ad Alta Fedeltà

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Abstract

Support