UniF^2ace: Comprensión y Generación Detallada de Rostros con Modelos Multimodales Unificados
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models
March 11, 2025
Autores: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI
Resumen
Los modelos multimodales unificados (UMMs, por sus siglas en inglés) han surgido como un paradigma poderoso en la investigación fundamental de visión por computadora, demostrando un potencial significativo tanto en la comprensión como en la generación de imágenes. Sin embargo, las investigaciones existentes en el dominio facial se centran principalmente en la comprensión de atributos faciales generales, con una capacidad limitada para manejar atributos faciales detallados y sin abordar capacidades de generación. Para superar estas limitaciones, proponemos UniF^2ace, el primer UMM diseñado específicamente para la comprensión y generación facial detallada. En general, entrenamos UniF^2ace en un conjunto de datos especializado construido internamente, utilizando dos técnicas de difusión mutuamente beneficiosas y una arquitectura de mezcla de expertos de dos niveles. Específicamente, primero construimos un conjunto de datos facial a gran escala, UniF^2ace-130K, que contiene 130K pares de imagen-texto con un millón de pares de preguntas y respuestas que abarcan una amplia gama de atributos faciales. Segundo, establecemos una conexión teórica entre la coincidencia de puntuación de difusión discreta y los modelos generativos enmascarados, optimizando simultáneamente los límites inferiores de evidencia, lo que mejora significativamente la capacidad del modelo para sintetizar detalles faciales. Finalmente, introducimos una mezcla de expertos tanto a nivel de token como de secuencia, permitiendo un aprendizaje eficiente de representaciones detalladas para tareas de comprensión y generación. Experimentos exhaustivos en UniF^2ace-130K demuestran que UniF^2ace supera a los UMMs y modelos generativos existentes, logrando un rendimiento superior en tareas de comprensión y generación.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in
foundational computer vision research, demonstrating significant potential in
both image understanding and generation. However, existing research in the face
domain primarily focuses on coarse facial attribute understanding,
with limited capacity to handle fine-grained facial attributes and
without addressing generation capabilities. To overcome these limitations, we
propose UniF^2ace, the first UMM tailored specifically for
fine-grained face understanding and generation. In general, we train
UniF^2ace on a self-constructed, specialized dataset utilizing two
mutually beneficial diffusion techniques and a two-level mixture-of-experts
architecture. Specifically, we first build a large-scale facial dataset,
UniF^2ace-130K, which contains 130K image-text pairs with one
million question-answering pairs that span a wide range of facial attributes.
Second, we establish a theoretical connection between discrete diffusion score
matching and masked generative models, optimizing both evidence lower bounds
simultaneously, which significantly improves the model's ability to synthesize
facial details. Finally, we introduce both token-level and sequence-level
mixture-of-experts, enabling efficient fine-grained representation learning for
both understanding and generation tasks. Extensive experiments on
UniF^2ace-130K demonstrate that UniF^2ace outperforms
existing UMMs and generative models, achieving superior performance across both
understanding and generation tasks.Summary
AI-Generated Summary