MMFace-DiT : Un transformeur de diffusion à double flux pour la génération faciale multimodale haute fidélité

Résumé

Les modèles récents de génération de visages multimodaux pallient les limitations du contrôle spatial des modèles de diffusion texte-image en enrichissant le conditionnement textuel avec des prérequis spatiaux tels que des masques de segmentation, des esquisses ou des cartes de contours. Cette fusion multimodale permet une synthèse contrôlable alignée à la fois sur l'intention sémantique de haut niveau et la disposition structurelle de bas niveau. Cependant, la plupart des approches existantes étendent généralement des pipelines texte-image pré-entraînés en ajoutant des modules de contrôle auxiliaires ou en assemblant des réseaux unimodaux distincts. Ces conceptions ad hoc héritent de contraintes architecturales, dupliquent les paramètres et échouent souvent face à des modalités conflictuelles ou des espaces latents incompatibles, limitant leur capacité à réaliser une fusion synergique entre les domaines sémantique et spatial. Nous présentons MMFace-DiT, un transformeur de diffusion à double flux unifié conçu pour la synthèse multimodale synergique de visages. Sa principale innovation réside dans un bloc transformeur à double flux qui traite en parallèle les tokens spatiaux (masque/esquisse) et sémantiques (texte), en les fusionnant profondément grâce à un mécanisme d'attention partagé à embedding positionnel rotatif (RoPE). Cette conception empêche la dominance modale et garantit une forte adhésion aux prérequis textuels et structurels pour atteindre une cohérence spatiale-sémantique sans précédent dans la génération contrôlée de visages. De plus, un nouvel Embeddeur de Modalité permet à un modèle unique et cohésif de s'adapter dynamiquement à diverses conditions spatiales sans réentraînement. MMFace-DiT améliore la fidélité visuelle et l'alignement aux instructions de 40 % par rapport à six modèles de génération de visages multimodaux de pointe, établissant un nouveau paradigme flexible pour la modélisation générative contrôlable de bout en bout. Le code et le jeu de données sont disponibles sur notre page projet : https://vcbsl.github.io/MMFace-DiT/

English

Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/

MMFace-DiT : Un transformeur de diffusion à double flux pour la génération faciale multimodale haute fidélité

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Résumé

Support