MMFace-DiT: Um Transformer de Difusão de Fluxo Duplo para Geração de Faces Multimodal de Alta Fidelidade

Resumo

Os modelos recentes de geração facial multimodal superam as limitações de controle espacial dos modelos de difusão texto-imagem ao aprimorar o condicionamento baseado em texto com prévias espaciais, como máscaras de segmentação, esboços ou mapas de bordas. Essa fusão multimodal permite síntese controlada alinhada tanto com a intenção semântica de alto nível quanto com o layout estrutural de baixo nível. Contudo, a maioria das abordagens existentes normalmente estende pipelines pré-treinados de texto-imagem anexando módulos de controle auxiliares ou unindo redes unimodais separadas. Esses projetos ad hoc herdam restrições arquiteturais, duplicam parâmetros e frequentemente falham sob modalidades conflitantes ou espaços latentes incompatíveis, limitando sua capacidade de realizar fusão sinérgica entre domínios semânticos e espaciais. Apresentamos o MMFace-DiT, um transformer de difusão de fluxo duplo unificado projetado para síntese facial multimodal sinérgica. Sua principal inovação reside em um bloco transformer de fluxo duplo que processa tokens espaciais (máscara/esboço) e semânticos (texto) em paralelo, fundindo-os profundamente por meio de um mecanismo de Atenção com Posicionamento Rotacional (RoPE) compartilhado. Este projeto previne dominância modal e garante forte aderência tanto a prévias textuais quanto estruturais para alcançar consistência espaço-semântica sem precedentes na geração facial controlada. Adicionalmente, um novo Incorporador de Modalidade permite que um único modelo coeso se adapte dinamicamente a condições espaciais variadas sem retreinamento. O MMFace-DiT alcança uma melhoria de 40% na fidelidade visual e no alinhamento textual em relação a seis modelos state-of-the-art de geração facial multimodal, estabelecendo um novo paradigma flexível para modelagem generativa controlada de ponta a ponta. O código e o conjunto de dados estão disponíveis em nossa página do projeto: https://vcbsl.github.io/MMFace-DiT/

English

Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/

MMFace-DiT: Um Transformer de Difusão de Fluxo Duplo para Geração de Faces Multimodal de Alta Fidelidade

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Resumo

Support