ChatPaper.aiChatPaper

Смесь глобальных и локальных экспертов с диффузионным трансформатором для управляемой генерации лиц

Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

August 30, 2025
Авторы: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI

Аннотация

Управляемая генерация лиц представляет собой сложную задачу в области генеративного моделирования из-за необходимости тонкого баланса между семантической управляемостью и фотореалистичностью. В то время как существующие подходы испытывают трудности с разделением семантических управляющих параметров в процессах генерации, мы пересматриваем архитектурный потенциал диффузионных трансформеров (DiTs) через призму специализации экспертов. В данной статье представлен Face-MoGLE — новая структура, включающая: (1) Семантически разделенное латентное моделирование через факторизацию пространства с условием на маски, что позволяет точно манипулировать атрибутами; (2) Смесь глобальных и локальных экспертов, которые захватывают целостную структуру и семантику на уровне регионов для детализированной управляемости; (3) Динамическую сеть гейтов, генерирующую зависящие от времени коэффициенты, которые эволюционируют с шагами диффузии и пространственными координатами. Face-MoGLE предлагает мощное и гибкое решение для высококачественной управляемой генерации лиц с большим потенциалом в генеративном моделировании и приложениях безопасности. Многочисленные эксперименты демонстрируют его эффективность в мультимодальных и мономодальных настройках генерации лиц, а также его устойчивую способность к обобщению в условиях zero-shot. Страница проекта доступна по адресу https://github.com/XavierJiezou/Face-MoGLE.
English
Controllable face generation poses critical challenges in generative modeling due to the intricate balance required between semantic controllability and photorealism. While existing approaches struggle with disentangling semantic controls from generation pipelines, we revisit the architectural potential of Diffusion Transformers (DiTs) through the lens of expert specialization. This paper introduces Face-MoGLE, a novel framework featuring: (1) Semantic-decoupled latent modeling through mask-conditioned space factorization, enabling precise attribute manipulation; (2) A mixture of global and local experts that captures holistic structure and region-level semantics for fine-grained controllability; (3) A dynamic gating network producing time-dependent coefficients that evolve with diffusion steps and spatial locations. Face-MoGLE provides a powerful and flexible solution for high-quality, controllable face generation, with strong potential in generative modeling and security applications. Extensive experiments demonstrate its effectiveness in multimodal and monomodal face generation settings and its robust zero-shot generalization capability. Project page is available at https://github.com/XavierJiezou/Face-MoGLE.
PDF111September 4, 2025