UniF^2ace: 통합 멀티모달 모델을 활용한 세밀한 얼굴 이해 및 생성
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
March 11, 2025
저자: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI
초록
통합 멀티모달 모델(UMM)은 기초 컴퓨터 비전 연구에서 강력한 패러다임으로 부상하며, 이미지 이해와 생성 모두에서 상당한 잠재력을 입증해 왔습니다. 그러나 얼굴 도메인에서의 기존 연구는 주로 대략적인 얼굴 속성 이해에 초점을 맞추고 있으며, 세밀한 얼굴 속성을 다루는 능력이 제한적이고 생성 능력을 다루지 못하는 한계가 있습니다. 이러한 한계를 극복하기 위해, 우리는 세밀한 얼굴 이해와 생성을 위해 특별히 설계된 첫 번째 UMM인 UniF^2ace를 제안합니다. 일반적으로, 우리는 두 가지 상호 보완적인 디퓨전 기법과 두 단계의 전문가 혼합(MoE) 아키텍처를 활용하여 자체 구축한 특화된 데이터셋에서 UniF^2ace를 학습시킵니다. 구체적으로, 먼저 130K개의 이미지-텍스트 쌍과 백만 개의 질문-답변 쌍을 포함하며 다양한 얼굴 속성을 아우르는 대규모 얼굴 데이터셋인 UniF^2ace-130K를 구축합니다. 둘째, 이산 디퓨전 점수 매칭과 마스크 생성 모델 간의 이론적 연결을 확립하여 두 증거 하한을 동시에 최적화함으로써 모델의 얼굴 세부 사항 합성 능력을 크게 향상시킵니다. 마지막으로, 토큰 수준과 시퀀스 수준의 전문가 혼합을 도입하여 이해와 생성 작업 모두에 대해 효율적인 세밀한 표현 학습을 가능하게 합니다. UniF^2ace-130K에 대한 광범위한 실험을 통해 UniF^2ace가 기존 UMM 및 생성 모델을 능가하며 이해와 생성 작업 모두에서 우수한 성능을 달성함을 입증합니다.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in
foundational computer vision research, demonstrating significant potential in
both image understanding and generation. However, existing research in the face
domain primarily focuses on coarse facial attribute understanding,
with limited capacity to handle fine-grained facial attributes and
without addressing generation capabilities. To overcome these limitations, we
propose UniF^2ace, the first UMM tailored specifically for
fine-grained face understanding and generation. In general, we train
UniF^2ace on a self-constructed, specialized dataset utilizing two
mutually beneficial diffusion techniques and a two-level mixture-of-experts
architecture. Specifically, we first build a large-scale facial dataset,
UniF^2ace-130K, which contains 130K image-text pairs with one
million question-answering pairs that span a wide range of facial attributes.
Second, we establish a theoretical connection between discrete diffusion score
matching and masked generative models, optimizing both evidence lower bounds
simultaneously, which significantly improves the model's ability to synthesize
facial details. Finally, we introduce both token-level and sequence-level
mixture-of-experts, enabling efficient fine-grained representation learning for
both understanding and generation tasks. Extensive experiments on
UniF^2ace-130K demonstrate that UniF^2ace outperforms
existing UMMs and generative models, achieving superior performance across both
understanding and generation tasks.Summary
AI-Generated Summary