UniF^2ace : Compréhension et génération fine des visages avec des modèles multimodaux unifiés
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
March 11, 2025
Auteurs: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI
Résumé
Les modèles multimodaux unifiés (UMM) sont apparus comme un paradigme puissant dans la recherche fondamentale en vision par ordinateur, démontrant un potentiel significatif à la fois dans la compréhension et la génération d'images. Cependant, les recherches existantes dans le domaine du visage se concentrent principalement sur la compréhension grossière des attributs faciaux, avec une capacité limitée à gérer des attributs faciaux fins et sans aborder les capacités de génération. Pour surmonter ces limitations, nous proposons UniF^2ace, le premier UMM spécifiquement conçu pour la compréhension et la génération fine du visage. En général, nous entraînons UniF^2ace sur un ensemble de données spécialisé et auto-construit, en utilisant deux techniques de diffusion mutuellement bénéfiques et une architecture à deux niveaux de mixture d'experts. Plus précisément, nous construisons d'abord un ensemble de données faciales à grande échelle, UniF^2ace-130K, qui contient 130 000 paires image-texte avec un million de paires question-réponse couvrant un large éventail d'attributs faciaux. Ensuite, nous établissons une connexion théorique entre le score de diffusion discrète et les modèles génératifs masqués, optimisant simultanément les bornes inférieures de l'évidence, ce qui améliore considérablement la capacité du modèle à synthétiser les détails faciaux. Enfin, nous introduisons une mixture d'experts à la fois au niveau des tokens et des séquences, permettant un apprentissage efficace des représentations fines pour les tâches de compréhension et de génération. Des expériences approfondies sur UniF^2ace-130K démontrent qu'UniF^2ace surpasse les UMM et modèles génératifs existants, obtenant des performances supérieures dans les tâches de compréhension et de génération.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in
foundational computer vision research, demonstrating significant potential in
both image understanding and generation. However, existing research in the face
domain primarily focuses on coarse facial attribute understanding,
with limited capacity to handle fine-grained facial attributes and
without addressing generation capabilities. To overcome these limitations, we
propose UniF^2ace, the first UMM tailored specifically for
fine-grained face understanding and generation. In general, we train
UniF^2ace on a self-constructed, specialized dataset utilizing two
mutually beneficial diffusion techniques and a two-level mixture-of-experts
architecture. Specifically, we first build a large-scale facial dataset,
UniF^2ace-130K, which contains 130K image-text pairs with one
million question-answering pairs that span a wide range of facial attributes.
Second, we establish a theoretical connection between discrete diffusion score
matching and masked generative models, optimizing both evidence lower bounds
simultaneously, which significantly improves the model's ability to synthesize
facial details. Finally, we introduce both token-level and sequence-level
mixture-of-experts, enabling efficient fine-grained representation learning for
both understanding and generation tasks. Extensive experiments on
UniF^2ace-130K demonstrate that UniF^2ace outperforms
existing UMMs and generative models, achieving superior performance across both
understanding and generation tasks.Summary
AI-Generated Summary