UniF^2ace: Compreensão e Geração de Faces de Alta Precisão com Modelos Multimodais Unificados

Resumo

Modelos multimodais unificados (UMMs) surgiram como um paradigma poderoso na pesquisa fundamental em visão computacional, demonstrando potencial significativo tanto na compreensão quanto na geração de imagens. No entanto, as pesquisas existentes no domínio facial concentram-se principalmente na compreensão de atributos faciais de forma ampla, com capacidade limitada para lidar com atributos faciais de granularidade fina e sem abordar capacidades de geração. Para superar essas limitações, propomos o UniF^2ace, o primeiro UMM projetado especificamente para compreensão e geração facial de granularidade fina. Em geral, treinamos o UniF^2ace em um conjunto de dados especializado e autoconstruído, utilizando duas técnicas de difusão mutuamente benéficas e uma arquitetura de mistura de especialistas de dois níveis. Especificamente, primeiro construímos um grande conjunto de dados faciais, o UniF^2ace-130K, que contém 130 mil pares de imagem-texto com um milhão de pares de perguntas e respostas que abrangem uma ampla gama de atributos faciais. Em segundo lugar, estabelecemos uma conexão teórica entre a correspondência de pontuação de difusão discreta e modelos generativos mascarados, otimizando simultaneamente os limites inferiores de evidência, o que melhora significativamente a capacidade do modelo de sintetizar detalhes faciais. Por fim, introduzimos uma mistura de especialistas tanto em nível de token quanto em nível de sequência, permitindo um aprendizado eficiente de representações de granularidade fina para tarefas de compreensão e geração. Experimentos extensivos no UniF^2ace-130K demonstram que o UniF^2ace supera os UMMs e modelos generativos existentes, alcançando desempenho superior em tarefas de compreensão e geração.

English

Unified multimodal models (UMMs) have emerged as a powerful paradigm in foundational computer vision research, demonstrating significant potential in both image understanding and generation. However, existing research in the face domain primarily focuses on coarse facial attribute understanding, with limited capacity to handle fine-grained facial attributes and without addressing generation capabilities. To overcome these limitations, we propose UniF^2ace, the first UMM tailored specifically for fine-grained face understanding and generation. In general, we train UniF^2ace on a self-constructed, specialized dataset utilizing two mutually beneficial diffusion techniques and a two-level mixture-of-experts architecture. Specifically, we first build a large-scale facial dataset, UniF^2ace-130K, which contains 130K image-text pairs with one million question-answering pairs that span a wide range of facial attributes. Second, we establish a theoretical connection between discrete diffusion score matching and masked generative models, optimizing both evidence lower bounds simultaneously, which significantly improves the model's ability to synthesize facial details. Finally, we introduce both token-level and sequence-level mixture-of-experts, enabling efficient fine-grained representation learning for both understanding and generation tasks. Extensive experiments on UniF^2ace-130K demonstrate that UniF^2ace outperforms existing UMMs and generative models, achieving superior performance across both understanding and generation tasks.

UniF^2ace: Compreensão e Geração de Faces de Alta Precisão com Modelos Multimodais Unificados

UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

Resumo

Support