UniF^2ace: Fijnmazig gezichtsbegrip en -generatie met geïntegreerde multimodale modellen
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
March 11, 2025
Auteurs: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI
Samenvatting
Unified multimodal models (UMMs) zijn naar voren gekomen als een krachtig paradigma in fundamenteel computer vision-onderzoek, waarbij ze aanzienlijk potentieel hebben getoond op het gebied van zowel beeldbegrip als beeldgeneratie. Bestaand onderzoek in het domein van gezichten richt zich echter voornamelijk op het begrijpen van grove gezichtskenmerken, met beperkte capaciteit om fijnmazige gezichtskenmerken te verwerken en zonder aandacht voor generatiemogelijkheden. Om deze beperkingen te overwinnen, stellen we UniF^2ace voor, de eerste UMM die specifiek is ontworpen voor fijnmazig gezichtsbegrip en -generatie. Over het algemeen trainen we UniF^2ace op een zelfsamengestelde, gespecialiseerde dataset met behulp van twee elkaar versterkende diffusietechnieken en een twee niveaus tellende mixture-of-experts-architectuur. Concreet bouwen we eerst een grootschalige gezichtsdataset, UniF^2ace-130K, die 130K afbeelding-tekst-paren bevat met één miljoen vraag-antwoord-paren die een breed scala aan gezichtskenmerken bestrijken. Ten tweede leggen we een theoretische verbinding tussen discrete diffusie score matching en gemaskerde generatieve modellen, waarbij we beide evidence lower bounds gelijktijdig optimaliseren, wat het vermogen van het model om gezichtsdetails te synthetiseren aanzienlijk verbetert. Tot slot introduceren we zowel token-level als sequence-level mixture-of-experts, wat efficiënt fijnmazige representatie leren mogelijk maakt voor zowel begrips- als generatietaken. Uitgebreide experimenten op UniF^2ace-130K tonen aan dat UniF^2ace bestaande UMMs en generatieve modellen overtreft, met superieure prestaties op zowel begrips- als generatietaken.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in
foundational computer vision research, demonstrating significant potential in
both image understanding and generation. However, existing research in the face
domain primarily focuses on coarse facial attribute understanding,
with limited capacity to handle fine-grained facial attributes and
without addressing generation capabilities. To overcome these limitations, we
propose UniF^2ace, the first UMM tailored specifically for
fine-grained face understanding and generation. In general, we train
UniF^2ace on a self-constructed, specialized dataset utilizing two
mutually beneficial diffusion techniques and a two-level mixture-of-experts
architecture. Specifically, we first build a large-scale facial dataset,
UniF^2ace-130K, which contains 130K image-text pairs with one
million question-answering pairs that span a wide range of facial attributes.
Second, we establish a theoretical connection between discrete diffusion score
matching and masked generative models, optimizing both evidence lower bounds
simultaneously, which significantly improves the model's ability to synthesize
facial details. Finally, we introduce both token-level and sequence-level
mixture-of-experts, enabling efficient fine-grained representation learning for
both understanding and generation tasks. Extensive experiments on
UniF^2ace-130K demonstrate that UniF^2ace outperforms
existing UMMs and generative models, achieving superior performance across both
understanding and generation tasks.Summary
AI-Generated Summary