MMFace-DiT: Двухпоточный диффузионный трансформер для высококачественной мультимодальной генерации лиц

Аннотация

Современные мультимодальные модели генерации лиц преодолевают ограничения пространственного контроля диффузионных моделей текст-изображение за счет дополнения текстовых условий пространственными приорами, такими как маски сегментации, эскизы или карты границ. Такое мультимодальное слияние обеспечивает управляемый синтез, согласованный как с семантическим замыслом высокого уровня, так и со структурной компоновкой низкого уровня. Однако большинство существующих подходов обычно расширяют предобученные текст-изображение конвейеры путем добавления вспомогательных модулей управления или объединения раздельных унимодальных сетей. Эти ад-hoc решения наследуют архитектурные ограничения, дублируют параметры и часто дают сбой при конфликтующих модальностях или несовпадающих латентных пространствах, что ограничивает их способность к синергетическому слиянию семантических и пространственных доменов. Мы представляем MMFace-DiT — унифицированный двухпотоковый диффузионный трансформер, разработанный для синергетической мультимодальной генерации лиц. Его ключевая новизна заключается в двухпотоковом трансформерном блоке, который параллельно обрабатывает пространственные (маска/эскиз) и семантические (текст) токены, глубоко объединяя их через общий механизм внимания с ротационными позиционными эмбеддингами (RoPE). Данная архитектура предотвращает доминирование модальностей и обеспечивает строгое соответствие как текстовым, так и структурным приорам для достижения беспрецедентной пространственно-семантической согласованности при управляемой генерации лиц. Кроме того, новый модуль эмбеддинга модальностей позволяет единой целостной модели динамически адаптироваться к различным пространственным условиям без переобучения. MMFace-DiT демонстрирует 40% улучшение визуального качества и соответствия промпту по сравнению с шестью передовыми мультимодальными моделями генерации лиц, устанавливая гибкую новую парадигму для сквозного управляемого генеративного моделирования. Код и датасет доступны на странице проекта: https://vcbsl.github.io/MMFace-DiT/

English

Recent multimodal face generation models address the spatial control limitations of text-to-image diffusion models by augmenting text-based conditioning with spatial priors such as segmentation masks, sketches, or edge maps. This multimodal fusion enables controllable synthesis aligned with both high-level semantic intent and low-level structural layout. However, most existing approaches typically extend pre-trained text-to-image pipelines by appending auxiliary control modules or stitching together separate uni-modal networks. These ad hoc designs inherit architectural constraints, duplicate parameters, and often fail under conflicting modalities or mismatched latent spaces, limiting their ability to perform synergistic fusion across semantic and spatial domains. We introduce MMFace-DiT, a unified dual-stream diffusion transformer engineered for synergistic multimodal face synthesis. Its core novelty lies in a dual-stream transformer block that processes spatial (mask/sketch) and semantic (text) tokens in parallel, deeply fusing them through a shared Rotary Position-Embedded (RoPE) Attention mechanism. This design prevents modal dominance and ensures strong adherence to both text and structural priors to achieve unprecedented spatial-semantic consistency for controllable face generation. Furthermore, a novel Modality Embedder enables a single cohesive model to dynamically adapt to varying spatial conditions without retraining. MMFace-DiT achieves a 40% improvement in visual fidelity and prompt alignment over six state-of-the-art multimodal face generation models, establishing a flexible new paradigm for end-to-end controllable generative modeling. The code and dataset are available on our project page: https://vcbsl.github.io/MMFace-DiT/

MMFace-DiT: Двухпоточный диффузионный трансформер для высококачественной мультимодальной генерации лиц

MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

Аннотация

Support