ChatPaper.aiChatPaper

Semantik weist den Weg: Harmonisierung von semantischer und Texturmodellierung mit asynchroner latenter Diffusion

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

December 4, 2025
papers.authors: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI

papers.abstract

Latente Diffusionsmodelle (LDMs) folgen inhärent einem grob-zu-fein-Generierungsprozess, bei dem die semantische Hochlevel-Struktur geringfügig früher generiert wird als die feingranulare Textur. Dies deutet darauf hin, dass die vorausgehende Semantik die Texturgenerierung potenziell begünstigt, indem sie einen semantischen Anker bereitstellt. Jüngste Fortschritte integrieren semantische Priors von vortrainierten visuellen Encodern, um LDMs weiter zu verbessern; dennoch entrauschen diese Semantik und VAE-codierte Textur synchron und vernachlässigen diese Reihenfolge. Aufbauend auf diesen Beobachtungen schlagen wir Semantic-First Diffusion (SFD) vor, ein latentes Diffusionsparadigma, das die semantische Formation explizit priorisiert. SFD konstruiert zunächst composite Latents, indem ein kompaktes semantisches Latent – extrahiert von einem vortrainierten visuellen Encoder via eines dedizierten Semantic VAE – mit dem Texturlatent kombiniert wird. Der Kern von SFD besteht darin, die semantischen und texturbezogenen Latents asynchron mit separaten Rauschzeitplänen zu entrauschen: Die Semantik geht der Textur um einen zeitlichen Versatz voraus, liefert so klarere Hochlevel-Vorgaben für die Texturverfeinerung und ermöglicht eine natürliche grob-zu-fein-Generierung. Auf ImageNet 256x256 mit Guidance erreicht SFD FID 1.06 (LightningDiT-XL) und FID 1.04 (1.0B LightningDiT-XXL) bei gleichzeitig bis zu 100-fach schnellerer Konvergenz als das originale DiT. SFD verbessert auch bestehende Methoden wie ReDi und VA-VAE, was die Wirksamkeit der asynchronen, semantikgeführten Modellierung demonstriert. Projektseite und Code: https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
PDF261December 6, 2025