Mischung aus globalen und lokalen Experten mit Diffusions-Transformer für kontrollierbare Gesichtsgenerierung
Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation
August 30, 2025
papers.authors: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI
papers.abstract
Die kontrollierbare Gesichtserzeugung stellt kritische Herausforderungen im Bereich des generativen Modellierens dar, da ein komplexes Gleichgewicht zwischen semantischer Steuerbarkeit und Fotorealismus erforderlich ist. Während bestehende Ansätze Schwierigkeiten haben, semantische Steuerungen von den Generierungspipelines zu entkoppeln, untersuchen wir das architektonische Potenzial von Diffusion Transformers (DiTs) durch die Linse der Expertenspezialisierung. Dieses Papier stellt Face-MoGLE vor, ein neuartiges Framework, das folgende Merkmale aufweist: (1) Semantisch-entkoppelte latente Modellierung durch masken-konditionierte Raumfaktorisierung, die eine präzise Attributmanipulation ermöglicht; (2) Eine Mischung aus globalen und lokalen Experten, die die ganzheitliche Struktur und regionsspezifische Semantik für eine fein abgestimmte Steuerbarkeit erfassen; (3) Ein dynamisches Gating-Netzwerk, das zeitabhängige Koeffizienten erzeugt, die sich mit den Diffusionsschritten und räumlichen Positionen entwickeln. Face-MoGLE bietet eine leistungsstarke und flexible Lösung für hochwertige, kontrollierbare Gesichtserzeugung mit starkem Potenzial im Bereich des generativen Modellierens und in Sicherheitsanwendungen. Umfangreiche Experimente demonstrieren seine Effektivität in multimodalen und monomodalen Gesichtserzeugungsszenarien sowie seine robuste Zero-Shot-Generalisierungsfähigkeit. Die Projektseite ist verfügbar unter https://github.com/XavierJiezou/Face-MoGLE.
English
Controllable face generation poses critical challenges in generative modeling
due to the intricate balance required between semantic controllability and
photorealism. While existing approaches struggle with disentangling semantic
controls from generation pipelines, we revisit the architectural potential of
Diffusion Transformers (DiTs) through the lens of expert specialization. This
paper introduces Face-MoGLE, a novel framework featuring: (1)
Semantic-decoupled latent modeling through mask-conditioned space
factorization, enabling precise attribute manipulation; (2) A mixture of global
and local experts that captures holistic structure and region-level semantics
for fine-grained controllability; (3) A dynamic gating network producing
time-dependent coefficients that evolve with diffusion steps and spatial
locations. Face-MoGLE provides a powerful and flexible solution for
high-quality, controllable face generation, with strong potential in generative
modeling and security applications. Extensive experiments demonstrate its
effectiveness in multimodal and monomodal face generation settings and its
robust zero-shot generalization capability. Project page is available at
https://github.com/XavierJiezou/Face-MoGLE.