ChatPaper.aiChatPaper

Семантика указывает путь: гармонизация семантического и текстурного моделирования с помощью асинхронного латентного диффузионного процесса

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

December 4, 2025
Авторы: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI

Аннотация

Латентные диффузионные модели (LDM) по своей природе следуют процессу генерации от общего к частному, при котором высокоуровневая семантическая структура формируется несколько раньше, чем детализированная текстура. Это указывает на то, что предшествующая семантика потенциально способствует генерации текстуры, предоставляя семантический якорь. Последние достижения интегрировали семантические априорные знания из предварительно обученных визуальных энкодеров для дальнейшего улучшения LDM, однако в них по-прежнему осуществляется синхронное шумоподавление семантики и текстуры, закодированной VAE, что игнорирует указанный порядок. Наблюдая это, мы предлагаем Semantic-First Diffusion (SFD) — парадигму латентной диффузии, которая явно приоритизирует формирование семантики. SFD сначала строит композитные латентные переменные, объединяя компактную семантическую латентную переменную, извлеченную из предобученного визуального энкодера с помощью специального Semantic VAE, с латентной переменной текстуры. Основная идея SFD заключается в асинхронном шумоподавлении семантических и текстурных латентных переменных с использованием раздельных графиков добавления шума: семантика обрабатывается раньше текстуры на временной сдвиг, что обеспечивает более четкие высокоуровневые ориентиры для уточнения текстуры и позволяет реализовать естественную генерацию от общего к частному. На наборе данных ImageNet 256x256 с использованием guidance метод SFD достигает FID 1.06 (LightningDiT-XL) и FID 1.04 (LightningDiT-XXL на 1.0B параметров), одновременно обеспечивая до 100-кратное ускорение сходимости по сравнению с оригинальным DiT. SFD также улучшает существующие методы, такие как ReDi и VA-VAE, демонстрируя эффективность асинхронного моделирования под руководством семантики. Страница проекта и код: https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
PDF261December 6, 2025