UniF^2ace: Compreensão e Geração de Faces de Alta Precisão com Modelos Multimodais Unificados
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
March 11, 2025
Autores: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI
Resumo
Modelos multimodais unificados (UMMs) surgiram como um paradigma poderoso na pesquisa fundamental em visão computacional, demonstrando potencial significativo tanto na compreensão quanto na geração de imagens. No entanto, as pesquisas existentes no domínio facial concentram-se principalmente na compreensão de atributos faciais de forma ampla, com capacidade limitada para lidar com atributos faciais de granularidade fina e sem abordar capacidades de geração. Para superar essas limitações, propomos o UniF^2ace, o primeiro UMM projetado especificamente para compreensão e geração facial de granularidade fina. Em geral, treinamos o UniF^2ace em um conjunto de dados especializado e autoconstruído, utilizando duas técnicas de difusão mutuamente benéficas e uma arquitetura de mistura de especialistas de dois níveis. Especificamente, primeiro construímos um grande conjunto de dados faciais, o UniF^2ace-130K, que contém 130 mil pares de imagem-texto com um milhão de pares de perguntas e respostas que abrangem uma ampla gama de atributos faciais. Em segundo lugar, estabelecemos uma conexão teórica entre a correspondência de pontuação de difusão discreta e modelos generativos mascarados, otimizando simultaneamente os limites inferiores de evidência, o que melhora significativamente a capacidade do modelo de sintetizar detalhes faciais. Por fim, introduzimos uma mistura de especialistas tanto em nível de token quanto em nível de sequência, permitindo um aprendizado eficiente de representações de granularidade fina para tarefas de compreensão e geração. Experimentos extensivos no UniF^2ace-130K demonstram que o UniF^2ace supera os UMMs e modelos generativos existentes, alcançando desempenho superior em tarefas de compreensão e geração.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in
foundational computer vision research, demonstrating significant potential in
both image understanding and generation. However, existing research in the face
domain primarily focuses on coarse facial attribute understanding,
with limited capacity to handle fine-grained facial attributes and
without addressing generation capabilities. To overcome these limitations, we
propose UniF^2ace, the first UMM tailored specifically for
fine-grained face understanding and generation. In general, we train
UniF^2ace on a self-constructed, specialized dataset utilizing two
mutually beneficial diffusion techniques and a two-level mixture-of-experts
architecture. Specifically, we first build a large-scale facial dataset,
UniF^2ace-130K, which contains 130K image-text pairs with one
million question-answering pairs that span a wide range of facial attributes.
Second, we establish a theoretical connection between discrete diffusion score
matching and masked generative models, optimizing both evidence lower bounds
simultaneously, which significantly improves the model's ability to synthesize
facial details. Finally, we introduce both token-level and sequence-level
mixture-of-experts, enabling efficient fine-grained representation learning for
both understanding and generation tasks. Extensive experiments on
UniF^2ace-130K demonstrate that UniF^2ace outperforms
existing UMMs and generative models, achieving superior performance across both
understanding and generation tasks.Summary
AI-Generated Summary