ChatPaper.aiChatPaper

Semântica Mostra o Caminho: Harmonizando a Modelagem Semântica e de Textura com Difusão Latente Assíncrona

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

December 4, 2025
Autores: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI

Resumo

Os Modelos de Difusão Latente (LDMs) seguem inerentemente um processo de geração do grosseiro para o refinado, onde a estrutura semântica de alto nível é gerada ligeiramente antes da textura de granularidade fina. Isto indica que a semântica precedente beneficia potencialmente a geração de textura ao fornecer uma âncora semântica. Avanços recentes integraram conhecimentos prévios semânticos de codificadores visuais pré-treinados para aprimorar ainda mais os LDMs, no entanto, eles ainda desfazem o ruído da semântica e da textura codificada pelo VAE de forma síncrona, negligenciando tal ordenação. Observando isto, propomos a Difusão Semântica-Primeiro (SFD), um paradigma de difusão latente que prioriza explicitamente a formação semântica. A SFD primeiro constrói latentes compostos combinando um latente semântico compacto, que é extraído de um codificador visual pré-treinado via um Semantic VAE dedicado, com o latente de textura. O cerne da SFD é desfazer o ruído dos latentes semântico e de textura de forma assíncrona usando cronogramas de ruído separados: a semântica precede as texturas por um deslocamento temporal, fornecendo orientação de alto nível mais clara para o refinamento de textura e permitindo uma geração natural do grosseiro para o refinado. No ImageNet 256x256 com orientação, a SFD alcança FID 1.06 (LightningDiT-XL) e FID 1.04 (LightningDiT-XXL 1.0B), enquanto atinge uma convergência até 100x mais rápida que a DiT original. A SFD também melhora métodos existentes como ReDi e VA-VAE, demonstrando a eficácia da modelagem assíncrona liderada por semântica. Página do projeto e código: https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
PDF422April 2, 2026