MMFace-DiT: Un Transformer de Difusión de Doble Flujo para la Generación de Rostros Multimodal de Alta Fidelidad

Resumen

Los modelos recientes de generación facial multimodal abordan las limitaciones de control espacial de los modelos de difusión texto-imagen mediante el aumento del condicionamiento basado en texto con antecedentes espaciales como máscaras de segmentación, bocetos o mapas de bordes. Esta fusión multimodal permite una síntesis controlable alineada tanto con la intención semántica de alto nivel como con el diseño estructural de bajo nivel. Sin embargo, la mayoría de los enfoques existentes suelen extender pipelines preentrenados de texto a imagen añadiendo módulos de control auxiliares o uniendo redes unimodales separadas. Estos diseños ad hoc heredan limitaciones arquitectónicas, duplican parámetros y a menudo fallan ante modalidades conflictivas o espacios latentes no coincidentes, lo que limita su capacidad para realizar una fusión sinérgica entre dominios semánticos y espaciales. Presentamos MMFace-DiT, un transformer de difusión de doble flujo unificado diseñado para la síntesis facial multimodal sinérgica. Su principal novedad radica en un bloque transformer de doble flujo que procesa tokens espaciales (máscara/boceto) y semánticos (texto) en paralelo, fusionándolos profundamente mediante un mecanismo de Atención con Incrustación Posicional Rotatoria (RoPE) compartido. Este diseño previene el dominio modal y garantiza una fuerte adherencia tanto a los antecedentes textuales como estructurales para lograr una consistencia espacial-semántica sin precedentes en la generación facial controlable. Además, un nuevo Incrustador de Modalidad permite que un único modelo cohesivo se adapte dinámicamente a condiciones espaciales variables sin necesidad de reentrenamiento. MMFace-DiT logra una mejora del 40% en fidelidad visual y alineación con el prompt respecto a seis modelos de vanguardia de generación facial multimodal, estableciendo un nuevo paradigma flexible para el modelado generativo controlado de extremo a extremo. El código y el conjunto de datos están disponibles en nuestra página del proyecto: https://vcbsl.github.io/MMFace-DiT/

English

Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/

MMFace-DiT: Un Transformer de Difusión de Doble Flujo para la Generación de Rostros Multimodal de Alta Fidelidad

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Resumen

Support