ChatPaper.aiChatPaper

UniF^2ace: Comprensione e Generazione Fine-grained del Volto con Modelli Multimodali Unificati

UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

March 11, 2025
Autori: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI

Abstract

I modelli multimodali unificati (UMM) sono emersi come un paradigma potente nella ricerca fondamentale sulla visione artificiale, dimostrando un significativo potenziale sia nella comprensione che nella generazione di immagini. Tuttavia, la ricerca esistente nel dominio del volto si concentra principalmente sulla comprensione di attributi facciali grossolani, con una capacità limitata di gestire attributi facciali granulari e senza affrontare le capacità di generazione. Per superare queste limitazioni, proponiamo UniF^2ace, il primo UMM specificamente progettato per la comprensione e la generazione granulare del volto. In generale, addestriamo UniF^2ace su un dataset specializzato auto-costruito, utilizzando due tecniche di diffusione reciprocamente vantaggiose e un'architettura a due livelli di mixture-of-experts. Nello specifico, costruiamo prima un dataset facciale su larga scala, UniF^2ace-130K, che contiene 130K coppie immagine-testo con un milione di coppie domanda-risposta che coprono un'ampia gamma di attributi facciali. In secondo luogo, stabiliamo una connessione teorica tra il discrete diffusion score matching e i modelli generativi mascherati, ottimizzando contemporaneamente i limiti inferiori dell'evidenza, il che migliora significativamente la capacità del modello di sintetizzare dettagli facciali. Infine, introduciamo sia una mixture-of-experts a livello di token che a livello di sequenza, consentendo un apprendimento efficiente delle rappresentazioni granulari sia per i compiti di comprensione che di generazione. Esperimenti estensivi su UniF^2ace-130K dimostrano che UniF^2ace supera gli UMM e i modelli generativi esistenti, raggiungendo prestazioni superiori sia nei compiti di comprensione che di generazione.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in foundational computer vision research, demonstrating significant potential in both image understanding and generation. However, existing research in the face domain primarily focuses on coarse facial attribute understanding, with limited capacity to handle fine-grained facial attributes and without addressing generation capabilities. To overcome these limitations, we propose UniF^2ace, the first UMM tailored specifically for fine-grained face understanding and generation. In general, we train UniF^2ace on a self-constructed, specialized dataset utilizing two mutually beneficial diffusion techniques and a two-level mixture-of-experts architecture. Specifically, we first build a large-scale facial dataset, UniF^2ace-130K, which contains 130K image-text pairs with one million question-answering pairs that span a wide range of facial attributes. Second, we establish a theoretical connection between discrete diffusion score matching and masked generative models, optimizing both evidence lower bounds simultaneously, which significantly improves the model's ability to synthesize facial details. Finally, we introduce both token-level and sequence-level mixture-of-experts, enabling efficient fine-grained representation learning for both understanding and generation tasks. Extensive experiments on UniF^2ace-130K demonstrate that UniF^2ace outperforms existing UMMs and generative models, achieving superior performance across both understanding and generation tasks.
PDF323March 12, 2025