ChatPaper.aiChatPaper

확산 트랜스포머를 활용한 전역 및 지역 전문가 혼합 모델을 통한 제어 가능한 얼굴 생성

Mixture of Global and Local Experts with Diffusion Transformer for Controllable Face Generation

August 30, 2025
저자: Xuechao Zou, Shun Zhang, Xing Fu, Yue Li, Kai Li, Yushe Cao, Congyan Lang, Pin Tao, Junliang Xing
cs.AI

초록

제어 가능한 얼굴 생성은 의미론적 제어성과 사실성 사이의 미묘한 균형이 요구되기 때문에 생성 모델링에서 중요한 도전 과제로 대두되고 있습니다. 기존 접근법들은 생성 파이프라인에서 의미론적 제어 요소를 분리하는 데 어려움을 겪는 반면, 본 연구는 전문가 전문화의 관점에서 Diffusion Transformers(DiTs)의 구조적 잠재력을 재조명합니다. 이 논문은 Face-MoGLE라는 새로운 프레임워크를 소개하며, 이는 다음과 같은 특징을 갖습니다: (1) 마스크 조건 공간 분해를 통한 의미론적 분리 잠재 모델링으로 정밀한 속성 조작 가능; (2) 전체적 구조와 지역적 의미를 포착하는 전역 및 지역 전문가 혼합체를 통해 세밀한 제어성 확보; (3) 확산 단계와 공간 위치에 따라 진화하는 시간 의존적 계수를 생성하는 동적 게이팅 네트워크. Face-MoGLE는 고품질의 제어 가능한 얼굴 생성을 위한 강력하고 유연한 솔루션을 제공하며, 생성 모델링 및 보안 응용 분야에서 강력한 잠재력을 지닙니다. 다양한 실험을 통해 다중 모드 및 단일 모드 얼굴 생성 설정에서의 효과성과 강력한 제로샷 일반화 능력을 입증하였습니다. 프로젝트 페이지는 https://github.com/XavierJiezou/Face-MoGLE에서 확인할 수 있습니다.
English
Controllable face generation poses critical challenges in generative modeling due to the intricate balance required between semantic controllability and photorealism. While existing approaches struggle with disentangling semantic controls from generation pipelines, we revisit the architectural potential of Diffusion Transformers (DiTs) through the lens of expert specialization. This paper introduces Face-MoGLE, a novel framework featuring: (1) Semantic-decoupled latent modeling through mask-conditioned space factorization, enabling precise attribute manipulation; (2) A mixture of global and local experts that captures holistic structure and region-level semantics for fine-grained controllability; (3) A dynamic gating network producing time-dependent coefficients that evolve with diffusion steps and spatial locations. Face-MoGLE provides a powerful and flexible solution for high-quality, controllable face generation, with strong potential in generative modeling and security applications. Extensive experiments demonstrate its effectiveness in multimodal and monomodal face generation settings and its robust zero-shot generalization capability. Project page is available at https://github.com/XavierJiezou/Face-MoGLE.
PDF111September 4, 2025