La Sémantique Montre la Voie : Harmonisation de la Modélisation Sémantique et Texturale par Diffusion Latente Asynchrone
Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion
December 4, 2025
papers.authors: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI
papers.abstract
Les modèles de diffusion latente (LDM) suivent intrinsèquement un processus de génération grossier-à-fin, où la structure sémantique de haut niveau est générée légèrement avant la texture granulaire. Cela indique que la sémantique précédente pourrait bénéficier à la génération de texture en fournissant une ancre sémantique. Des avancées récentes ont intégré des connaissances préalables sémantiques provenant d'encodeurs visuels pré-entraînés pour améliorer davantage les LDM, mais elles continuent de débruiter la sémantique et la texture encodée par VAE de manière synchrone, négligeant cet ordre. Face à ce constat, nous proposons Semantic-First Diffusion (SFD), un paradigme de diffusion latente qui priorise explicitement la formation sémantique. SFD construit d'abord des latences composites en combinant une latence sémantique compacte, extraite d'un encodeur visuel pré-entraîné via un VAE sémantique dédié, avec la latence de texture. Le cœur de SFD consiste à débruiter les latences sémantiques et texturales de manière asynchrone en utilisant des échelles de bruit distinctes : la sémantique précède la texture par un décalage temporel, fournissant ainsi un guidage de haut niveau plus clair pour l'affinage de la texture et permettant une génération naturelle grossier-à-fin. Sur ImageNet 256x256 avec guidage, SFD atteint un FID de 1,06 (LightningDiT-XL) et un FID de 1,04 (LightningDiT-XXL 1,0B), tout en atteignant une convergence jusqu'à 100 fois plus rapide que le DiT original. SFD améliore également des méthodes existantes comme ReDi et VA-VAE, démontrant l'efficacité d'une modélisation asynchrone dirigée par la sémantique. Page du projet et code : https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.