ChatPaper.aiChatPaper

UniF^2ace: Детальное понимание и генерация лиц с использованием унифицированных мультимодальных моделей

UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

March 11, 2025
Авторы: Junzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
cs.AI

Аннотация

Унифицированные мультимодальные модели (UMM) стали мощной парадигмой в фундаментальных исследованиях компьютерного зрения, демонстрируя значительный потенциал как в понимании, так и в генерации изображений. Однако существующие исследования в области анализа лиц в основном сосредоточены на грубом понимании атрибутов лица, с ограниченной способностью обрабатывать тонкие атрибуты и без учета возможностей генерации. Чтобы преодолеть эти ограничения, мы предлагаем UniF^2ace — первую UMM, специально разработанную для тонкого понимания и генерации лиц. В целом, мы обучаем UniF^2ace на самостоятельно созданном специализированном наборе данных, используя две взаимодополняющие диффузионные техники и двухуровневую архитектуру смеси экспертов. В частности, мы сначала создаем крупномасштабный набор данных лиц UniF^2ace-130K, содержащий 130 тысяч пар изображение-текст с миллионом пар вопрос-ответ, охватывающих широкий спектр атрибутов лица. Во-вторых, мы устанавливаем теоретическую связь между дискретным диффузионным согласованием оценок и маскированными генеративными моделями, одновременно оптимизируя нижние границы доказательств, что значительно улучшает способность модели синтезировать детали лица. Наконец, мы вводим как токен-уровневую, так и последовательностно-уровневую смесь экспертов, что позволяет эффективно обучать тонкие представления как для задач понимания, так и для генерации. Многочисленные эксперименты на UniF^2ace-130K демонстрируют, что UniF^2ace превосходит существующие UMM и генеративные модели, достигая превосходной производительности как в задачах понимания, так и в задачах генерации.
English
Unified multimodal models (UMMs) have emerged as a powerful paradigm in foundational computer vision research, demonstrating significant potential in both image understanding and generation. However, existing research in the face domain primarily focuses on coarse facial attribute understanding, with limited capacity to handle fine-grained facial attributes and without addressing generation capabilities. To overcome these limitations, we propose UniF^2ace, the first UMM tailored specifically for fine-grained face understanding and generation. In general, we train UniF^2ace on a self-constructed, specialized dataset utilizing two mutually beneficial diffusion techniques and a two-level mixture-of-experts architecture. Specifically, we first build a large-scale facial dataset, UniF^2ace-130K, which contains 130K image-text pairs with one million question-answering pairs that span a wide range of facial attributes. Second, we establish a theoretical connection between discrete diffusion score matching and masked generative models, optimizing both evidence lower bounds simultaneously, which significantly improves the model's ability to synthesize facial details. Finally, we introduce both token-level and sequence-level mixture-of-experts, enabling efficient fine-grained representation learning for both understanding and generation tasks. Extensive experiments on UniF^2ace-130K demonstrate that UniF^2ace outperforms existing UMMs and generative models, achieving superior performance across both understanding and generation tasks.

Summary

AI-Generated Summary

PDF313March 12, 2025