Mezcla de Expertos Globales y Locales con Transformador de Difusión para la Generación Controlable de Rostros
Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation
August 30, 2025
Autores: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI
Resumen
La generación controlable de rostros plantea desafíos críticos en el modelado generativo debido al intrincado equilibrio requerido entre la controlabilidad semántica y el fotorrealismo. Mientras que los enfoques existentes luchan por desacoplar los controles semánticos de las tuberías de generación, revisitamos el potencial arquitectónico de los Transformadores de Difusión (DiTs) desde la perspectiva de la especialización de expertos. Este artículo presenta Face-MoGLE, un marco novedoso que incluye: (1) Modelado latente desacoplado semánticamente mediante factorización del espacio condicionada por máscaras, permitiendo una manipulación precisa de atributos; (2) Una mezcla de expertos globales y locales que capturan la estructura holística y la semántica a nivel de región para una controlabilidad de grano fino; (3) Una red de compuertas dinámicas que produce coeficientes dependientes del tiempo, los cuales evolucionan con los pasos de difusión y las ubicaciones espaciales. Face-MoGLE ofrece una solución potente y flexible para la generación de rostros de alta calidad y controlable, con un fuerte potencial en aplicaciones de modelado generativo y seguridad. Experimentos extensivos demuestran su efectividad en configuraciones de generación de rostros multimodales y monomodales, así como su robusta capacidad de generalización en cero-shot. La página del proyecto está disponible en https://github.com/XavierJiezou/Face-MoGLE.
English
Controllable face generation poses critical challenges in generative modeling
due to the intricate balance required between semantic controllability and
photorealism. While existing approaches struggle with disentangling semantic
controls from generation pipelines, we revisit the architectural potential of
Diffusion Transformers (DiTs) through the lens of expert specialization. This
paper introduces Face-MoGLE, a novel framework featuring: (1)
Semantic-decoupled latent modeling through mask-conditioned space
factorization, enabling precise attribute manipulation; (2) A mixture of global
and local experts that captures holistic structure and region-level semantics
for fine-grained controllability; (3) A dynamic gating network producing
time-dependent coefficients that evolve with diffusion steps and spatial
locations. Face-MoGLE provides a powerful and flexible solution for
high-quality, controllable face generation, with strong potential in generative
modeling and security applications. Extensive experiments demonstrate its
effectiveness in multimodal and monomodal face generation settings and its
robust zero-shot generalization capability. Project page is available at
https://github.com/XavierJiezou/Face-MoGLE.