Qu'est-ce qui importe pour une variété latente adaptée à la diffusion ? Autoencodeurs alignés sur le prior pour la diffusion latente

Résumé

Les tokenizers sont un composant crucial des modèles de diffusion latente, car ils définissent l'espace latent dans lequel ces modèles opèrent. Cependant, les tokenizers existants sont principalement conçus pour améliorer la fidélité de reconstruction ou hériter de représentations pré-entraînées, ce qui laisse incertaine la nature d'un espace latent véritablement favorable à la modélisation générative. Dans cet article, nous étudions cette question sous l'angle de l'organisation de la variété latente. En construisant des variantes contrôlées de tokenizers, nous identifions trois propriétés clés d'une variété latente favorable à la diffusion : une structure spatiale cohérente, une continuité locale de la variété et une sémantique globale de la variété. Nous constatons que ces propriétés sont plus corrélées à la qualité de génération en aval qu'à la fidélité de reconstruction. Motivés par cette observation, nous proposons l'autoencodeur aligné sur les priors (Prior-Aligned AutoEncoder, PAE), qui façonne explicitement la variété latente au lieu de laisser émerger indirectement une variété favorable à la diffusion à partir de la reconstruction ou de l'héritage. Plus précisément, le PAE exploite des priors affinés dérivés de modèles de fondation visuelle (VFMs) et une régularisation par perturbation pour faire de la structure spatiale, de la continuité locale et de la sémantique globale des objectifs d'entraînement explicites. Sur ImageNet 256x256, le PAE améliore à la fois l'efficacité d'entraînement et la qualité de génération par rapport aux tokenizers existants, atteignant des performances comparables à RAE avec une convergence jusqu'à 13 fois plus rapide dans les mêmes conditions d'entraînement, et établissant un nouveau gFID record de 1,03. Ces résultats soulignent l'importance de l'organisation de la variété latente pour les modèles de diffusion latente.

English

Tokenizers are a crucial component of latent diffusion models, as they define the latent space in which diffusion models operate. However, existing tokenizers are primarily designed to improve reconstruction fidelity or inherit pretrained representations, leaving unclear what kind of latent space is truly friendly for generative modeling. In this paper, we study this question from the perspective of latent manifold organization. By constructing controlled tokenizer variants, we identify three key properties of a diffusion-friendly latent manifold: coherent spatial structure, local manifold continuity, and global manifold semantics. We find that these properties are more consistent with downstream generation quality than reconstruction fidelity. Motivated by this finding, we propose the Prior-Aligned AutoEncoder (PAE), which explicitly shapes the latent manifold instead of leaving diffusion-friendly manifold to emerge indirectly from reconstruction or inheritance. Specifically, PAE leverages refined priors derived from VFMs and perturbation-based regularization to turn spatial structure, local continuity, and global semantics into explicit training objectives. On ImageNet 256x256, PAE improves both training efficiency and generation quality over existing tokenizers, reaching performance comparable to RAE with up to 13x faster convergence under the same training setup and achieving a new state-of-the-art gFID of 1.03. These results highlight the importance of organizing the latent manifold for latent diffusion models.

Qu'est-ce qui importe pour une variété latente adaptée à la diffusion ? Autoencodeurs alignés sur le prior pour la diffusion latente

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

Résumé

Support