ChatPaper.aiChatPaper

Mélange d'Experts Globaux et Locaux avec un Transformateur de Diffusion pour la Génération Contrôlée de Visages

Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

August 30, 2025
papers.authors: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI

papers.abstract

La génération contrôlée de visages présente des défis critiques en modélisation générative en raison de l'équilibre complexe requis entre la contrôlabilité sémantique et le photoréalisme. Alors que les approches existantes peinent à dissocier les contrôles sémantiques des pipelines de génération, nous revisitons le potentiel architectural des Transformers de Diffusion (DiTs) à travers le prisme de la spécialisation experte. Cet article présente Face-MoGLE, un nouveau cadre comprenant : (1) une modélisation latente découplée sémantiquement via une factorisation de l'espace conditionnée par des masques, permettant une manipulation précise des attributs ; (2) un mélange d'experts globaux et locaux qui capturent la structure holistique et la sémantique au niveau des régions pour une contrôlabilité fine ; (3) un réseau de portes dynamiques produisant des coefficients dépendants du temps qui évoluent avec les étapes de diffusion et les emplacements spatiaux. Face-MoGLE offre une solution puissante et flexible pour la génération de visages de haute qualité et contrôlée, avec un fort potentiel dans la modélisation générative et les applications de sécurité. Des expériences approfondies démontrent son efficacité dans des contextes de génération de visages multimodaux et monomodaux, ainsi que sa robuste capacité de généralisation en zero-shot. La page du projet est disponible à l'adresse https://github.com/XavierJiezou/Face-MoGLE.
English
Controllable face generation poses critical challenges in generative modeling due to the intricate balance required between semantic controllability and photorealism. While existing approaches struggle with disentangling semantic controls from generation pipelines, we revisit the architectural potential of Diffusion Transformers (DiTs) through the lens of expert specialization. This paper introduces Face-MoGLE, a novel framework featuring: (1) Semantic-decoupled latent modeling through mask-conditioned space factorization, enabling precise attribute manipulation; (2) A mixture of global and local experts that captures holistic structure and region-level semantics for fine-grained controllability; (3) A dynamic gating network producing time-dependent coefficients that evolve with diffusion steps and spatial locations. Face-MoGLE provides a powerful and flexible solution for high-quality, controllable face generation, with strong potential in generative modeling and security applications. Extensive experiments demonstrate its effectiveness in multimodal and monomodal face generation settings and its robust zero-shot generalization capability. Project page is available at https://github.com/XavierJiezou/Face-MoGLE.
PDF111September 4, 2025