ChatPaper.aiChatPaper

Miscela di Esperti Globali e Locali con Trasformatore a Diffusione per la Generazione Controllata di Volti

Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

August 30, 2025
Autori: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI

Abstract

La generazione controllata di volti presenta sfide critiche nella modellazione generativa a causa del delicato equilibrio richiesto tra controllabilità semantica e fotorealismo. Mentre gli approcci esistenti faticano a separare i controlli semantici dalle pipeline di generazione, noi esploriamo nuovamente il potenziale architetturale dei Diffusion Transformer (DiT) attraverso la lente della specializzazione degli esperti. Questo articolo introduce Face-MoGLE, un nuovo framework che include: (1) Modellazione latente disaccoppiata semanticamente attraverso la fattorizzazione dello spazio condizionata da maschere, consentendo una manipolazione precisa degli attributi; (2) Una miscela di esperti globali e locali che catturano la struttura olistica e la semantica a livello regionale per una controllabilità fine; (3) Una rete di gating dinamica che produce coefficienti dipendenti dal tempo, che evolvono con i passi di diffusione e le posizioni spaziali. Face-MoGLE offre una soluzione potente e flessibile per la generazione di volti di alta qualità e controllabile, con un forte potenziale nella modellazione generativa e nelle applicazioni di sicurezza. Esperimenti estensivi dimostrano la sua efficacia in contesti di generazione di volti multimodali e monomodali e la sua robusta capacità di generalizzazione zero-shot. La pagina del progetto è disponibile all'indirizzo https://github.com/XavierJiezou/Face-MoGLE.
English
Controllable face generation poses critical challenges in generative modeling due to the intricate balance required between semantic controllability and photorealism. While existing approaches struggle with disentangling semantic controls from generation pipelines, we revisit the architectural potential of Diffusion Transformers (DiTs) through the lens of expert specialization. This paper introduces Face-MoGLE, a novel framework featuring: (1) Semantic-decoupled latent modeling through mask-conditioned space factorization, enabling precise attribute manipulation; (2) A mixture of global and local experts that captures holistic structure and region-level semantics for fine-grained controllability; (3) A dynamic gating network producing time-dependent coefficients that evolve with diffusion steps and spatial locations. Face-MoGLE provides a powerful and flexible solution for high-quality, controllable face generation, with strong potential in generative modeling and security applications. Extensive experiments demonstrate its effectiveness in multimodal and monomodal face generation settings and its robust zero-shot generalization capability. Project page is available at https://github.com/XavierJiezou/Face-MoGLE.
PDF172September 4, 2025