Mistura de Especialistas Globais e Locais com Transformador de Difusão para Geração Controlada de Rostos
Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation
August 30, 2025
Autores: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI
Resumo
A geração controlável de faces apresenta desafios críticos na modelagem generativa
devido ao equilíbrio intrincado necessário entre a controlabilidade semântica e o
fotorrealismo. Enquanto as abordagens existentes lutam para desacoplar controles
semânticos dos pipelines de geração, revisitamos o potencial arquitetônico dos
Transformadores de Difusão (DiTs) através da lente da especialização de especialistas.
Este artigo introduz o Face-MoGLE, uma nova estrutura que apresenta: (1)
Modelagem latente desacoplada semanticamente através da fatoração de espaço
condicionada por máscaras, permitindo manipulação precisa de atributos; (2) Uma
mistura de especialistas globais e locais que capturam a estrutura holística e a
semântica em nível de região para uma controlabilidade refinada; (3) Uma rede de
portas dinâmicas que produz coeficientes dependentes do tempo, evoluindo com os
passos de difusão e localizações espaciais. O Face-MoGLE oferece uma solução
poderosa e flexível para a geração de faces de alta qualidade e controlável, com
forte potencial em modelagem generativa e aplicações de segurança. Experimentos
extensivos demonstram sua eficácia em configurações de geração de faces
multimodais e monomodais, além de sua robusta capacidade de generalização
zero-shot. A página do projeto está disponível em
https://github.com/XavierJiezou/Face-MoGLE.
English
Controllable face generation poses critical challenges in generative modeling
due to the intricate balance required between semantic controllability and
photorealism. While existing approaches struggle with disentangling semantic
controls from generation pipelines, we revisit the architectural potential of
Diffusion Transformers (DiTs) through the lens of expert specialization. This
paper introduces Face-MoGLE, a novel framework featuring: (1)
Semantic-decoupled latent modeling through mask-conditioned space
factorization, enabling precise attribute manipulation; (2) A mixture of global
and local experts that captures holistic structure and region-level semantics
for fine-grained controllability; (3) A dynamic gating network producing
time-dependent coefficients that evolve with diffusion steps and spatial
locations. Face-MoGLE provides a powerful and flexible solution for
high-quality, controllable face generation, with strong potential in generative
modeling and security applications. Extensive experiments demonstrate its
effectiveness in multimodal and monomodal face generation settings and its
robust zero-shot generalization capability. Project page is available at
https://github.com/XavierJiezou/Face-MoGLE.