Wat is van belang voor een diffusievriendelijke latente manifold? Prior-afgestemde auto-encoders voor latente diffusie

Samenvatting

Tokenizers vormen een cruciaal onderdeel van latente diffusiemodellen, omdat ze de latente ruimte definiëren waarin diffusiemodellen opereren. Bestaande tokenizers zijn echter voornamelijk ontworpen om de reconstructiegetrouwheid te verbeteren of voorgetrainde representaties over te nemen, waardoor onduidelijk blijft wat voor soort latente ruimte werkelijk vriendelijk is voor generatieve modellering. In dit artikel bestuderen we deze vraag vanuit het perspectief van de organisatie van het latente manifold. Door gecontroleerde tokenizervarianten te construeren, identificeren we drie belangrijke eigenschappen van een diffusievriendelijk latent manifold: coherente ruimtelijke structuur, lokale manifoldcontinuïteit en globale manifoldsemantiek. We stellen vast dat deze eigenschappen beter samenhangen met de downstream generatiekwaliteit dan met de reconstructiegetrouwheid. Gemotiveerd door deze bevinding introduceren we de Prior-Aligned AutoEncoder (PAE), die het latente manifold expliciet vormgeeft in plaats van het diffusievriendelijke manifold indirect te laten ontstaan uit reconstructie of overerving. Concreet maakt PAE gebruik van verfijnde prior-kennis afgeleid van VFMs en perturbatiegebaseerde regularisatie om ruimtelijke structuur, lokale continuïteit en globale semantiek om te zetten in expliciete trainingsdoelstellingen. Op ImageNet 256x256 verbetert PAE zowel de trainingsefficiëntie als de generatiekwaliteit ten opzichte van bestaande tokenizers, met prestaties vergelijkbaar met RAE maar met een tot 13x snellere convergentie onder dezelfde trainingsopzet, en bereikt een nieuwe state-of-the-art gFID van 1,03. Deze resultaten benadrukken het belang van het organiseren van het latente manifold voor latente diffusiemodellen.

English

Tokenizers are a crucial component of latent diffusion models, as they define the latent space in which diffusion models operate. However, existing tokenizers are primarily designed to improve reconstruction fidelity or inherit pretrained representations, leaving unclear what kind of latent space is truly friendly for generative modeling. In this paper, we study this question from the perspective of latent manifold organization. By constructing controlled tokenizer variants, we identify three key properties of a diffusion-friendly latent manifold: coherent spatial structure, local manifold continuity, and global manifold semantics. We find that these properties are more consistent with downstream generation quality than reconstruction fidelity. Motivated by this finding, we propose the Prior-Aligned AutoEncoder (PAE), which explicitly shapes the latent manifold instead of leaving diffusion-friendly manifold to emerge indirectly from reconstruction or inheritance. Specifically, PAE leverages refined priors derived from VFMs and perturbation-based regularization to turn spatial structure, local continuity, and global semantics into explicit training objectives. On ImageNet 256x256, PAE improves both training efficiency and generation quality over existing tokenizers, reaching performance comparable to RAE with up to 13x faster convergence under the same training setup and achieving a new state-of-the-art gFID of 1.03. These results highlight the importance of organizing the latent manifold for latent diffusion models.

Wat is van belang voor een diffusievriendelijke latente manifold? Prior-afgestemde auto-encoders voor latente diffusie

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

Samenvatting

Support