La semantica apre la via: armonizzazione della modellazione semantica e tessiturale con la diffusione latente asincrona
Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion
December 4, 2025
Autori: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI
Abstract
I Modelli di Diffusione Latente (LDM) seguono intrinsecamente un processo di generazione dal generale al dettaglio, in cui la struttura semantica di alto livello viene generata leggermente prima della texture granulare. Ciò indica che la semantica precedente potenzialmente avvantaggia la generazione della texture fornendo un'ancora semantica. I recenti progressi hanno integrato conoscenze pregresse semantiche da encoder visivi pre-addestrati per migliorare ulteriormente gli LDM, tuttavia essi continuano a denosinare la semantica e la texture codificata VAE in modo sincrono, trascurando tale ordine. Osservando ciò, proponiamo Semantic-First Diffusion (SFD), un paradigma di diffusione latente che priorizza esplicitamente la formazione semantica. SFD costruisce prima latenti compositi combinando un latente semantico compatto, estratto da un encoder visivo pre-addestrato tramite un Semantic VAE dedicato, con il latente di texture. Il nucleo di SFD consiste nel denosinare i latenti semantici e di texture in modo asincrono utilizzando programmi di rumore separati: la semantica precede la texture di uno scostamento temporale, fornendo una guida di alto livello più chiara per la raffinatura della texture e consentendo una generazione naturale dal generale al dettaglio. Su ImageNet 256x256 con guida, SFD raggiunge un FID di 1.06 (LightningDiT-XL) e un FID di 1.04 (LightningDiT-XXL da 1.0B), raggiungendo al contempo una convergenza fino a 100 volte più veloce rispetto al DiT originale. SFD migliora anche metodi esistenti come ReDi e VA-VAE, dimostrando l'efficacia della modellazione asincrona guidata dalla semantica. Pagina del progetto e codice: https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.