ChatPaper.aiChatPaper

Semantiek Leidt de Weg: Harmonisatie van Semantische en Textuurmodellering met Asynchrone Latente Diffusie

Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

December 4, 2025
Auteurs: Yueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng
cs.AI

Samenvatting

Latent Diffusion Models (LDMs) volgen van nature een coarse-to-fine generatieproces, waarbij de hoogwaardige semantische structuur iets eerder wordt gegenereerd dan de fijnkorrelige textuur. Dit suggereert dat de voorafgaande semantiek de textuurgeneratie mogelijk ten goede komt door een semantisch anker te bieden. Recente ontwikkelingen hebben semantische priorissen van voorgetrainde visuele encoders geïntegreerd om LDMs verder te verbeteren, maar zij denoiseren semantiek en VAE-gecodeerde textuur nog steeds synchroon, waarbij een dergelijke volgorde wordt verwaarloosd. Op basis van deze observaties stellen wij Semantic-First Diffusion (SFD) voor, een latent diffusietype dat expliciet prioriteit geeft aan semantische vorming. SFD construeert eerst composiet-latents door een compacte semantische latent, die wordt geëxtraheerd uit een voorgetrainde visuele encoder via een speciaal daarvoor ontwikkelde Semantic VAE, te combineren met de textuur-latent. De kern van SFD is het asynchroon denoiseren van de semantische en textuur-latents met behulp van afzonderlijke noiseschema's: de semantiek loopt een temporele offset voor op de texturen, wat duidelijkere hoogwaardige begeleiding biedt voor textuurverfijning en natuurlijke coarse-to-fine generatie mogelijk maakt. Op ImageNet 256x256 met guidance behaalt SFD een FID van 1.06 (LightningDiT-XL) en een FID van 1.04 (1.0B LightningDiT-XXL), terwijl het tot 100x snellere convergentie bereikt dan de originele DiT. SFD verbetert ook bestaande methoden zoals ReDi en VA-VAE, wat de effectiviteit aantoont van asynchrone, semantiek-geleide modellering. Projectpagina en code: https://yuemingpan.github.io/SFD.github.io/.
English
Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.
PDF412December 21, 2025