拡散変換器を用いたグローバルおよびローカルエキスパートの混合による制御可能な顔生成
Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation
August 30, 2025
著者: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI
要旨
制御可能な顔生成は、意味的な制御性と写実性の間の微妙なバランスが要求されるため、生成モデリングにおいて重要な課題を提起します。既存のアプローチでは、生成パイプラインから意味的な制御を分離することが困難ですが、本論文では、専門家の特化という観点からDiffusion Transformers(DiTs)のアーキテクチャ的潜在能力を再検討します。本論文では、Face-MoGLEという新しいフレームワークを紹介します。このフレームワークは以下の特徴を有します:(1)マスク条件付き空間分解による意味的に分離された潜在モデリングにより、正確な属性操作を可能にする;(2)全体構造と領域レベルの意味を捉えるためのグローバルおよびローカルな専門家の混合により、細粒度の制御性を実現する;(3)拡散ステップと空間位置に応じて進化する時間依存係数を生成する動的ゲーティングネットワーク。Face-MoGLEは、高品質で制御可能な顔生成のための強力かつ柔軟なソリューションを提供し、生成モデリングやセキュリティアプリケーションにおいて大きな可能性を秘めています。広範な実験により、マルチモーダルおよびモノモーダルな顔生成設定における有効性と、堅牢なゼロショット汎化能力が実証されています。プロジェクトページはhttps://github.com/XavierJiezou/Face-MoGLEで公開されています。
English
Controllable face generation poses critical challenges in generative modeling
due to the intricate balance required between semantic controllability and
photorealism. While existing approaches struggle with disentangling semantic
controls from generation pipelines, we revisit the architectural potential of
Diffusion Transformers (DiTs) through the lens of expert specialization. This
paper introduces Face-MoGLE, a novel framework featuring: (1)
Semantic-decoupled latent modeling through mask-conditioned space
factorization, enabling precise attribute manipulation; (2) A mixture of global
and local experts that captures holistic structure and region-level semantics
for fine-grained controllability; (3) A dynamic gating network producing
time-dependent coefficients that evolve with diffusion steps and spatial
locations. Face-MoGLE provides a powerful and flexible solution for
high-quality, controllable face generation, with strong potential in generative
modeling and security applications. Extensive experiments demonstrate its
effectiveness in multimodal and monomodal face generation settings and its
robust zero-shot generalization capability. Project page is available at
https://github.com/XavierJiezou/Face-MoGLE.