¿Qué Importa para una Variedad Latente Amigable con la Difusión? Autoencoders Alineados con el Previo para Difusión Latente

Resumen

Los tokenizadores son un componente crucial en los modelos de difusión latente, ya que definen el espacio latente en el que operan estos modelos. Sin embargo, los tokenizadores existentes están diseñados principalmente para mejorar la fidelidad de reconstrucción o heredar representaciones preentrenadas, lo que deja sin aclarar qué tipo de espacio latente es verdaderamente adecuado para el modelado generativo. En este artículo, estudiamos esta cuestión desde la perspectiva de la organización del colector latente. Mediante la construcción de variantes controladas de tokenizadores, identificamos tres propiedades clave de un colector latente favorable para la difusión: estructura espacial coherente, continuidad local del colector y semántica global del colector. Descubrimos que estas propiedades están más alineadas con la calidad generativa posterior que la fidelidad de reconstrucción. Motivados por este hallazgo, proponemos el Autoencoder Alineado con el Prior (PAE), que moldea explícitamente el colector latente en lugar de dejar que surja indirectamente de la reconstrucción o herencia. Específicamente, el PAE aprovecha priores refinados derivados de VFMs y regularización basada en perturbaciones para convertir la estructura espacial, la continuidad local y la semántica global en objetivos de entrenamiento explícitos. En ImageNet 256x256, el PAE mejora tanto la eficiencia del entrenamiento como la calidad generativa en comparación con los tokenizadores existentes, alcanzando un rendimiento comparable al RAE con una convergencia hasta 13 veces más rápida bajo la misma configuración de entrenamiento y logrando un nuevo estado del arte en gFID de 1.03. Estos resultados destacan la importancia de organizar el colector latente para los modelos de difusión latente.

English

Tokenizers are a crucial component of latent diffusion models, as they define the latent space in which diffusion models operate. However, existing tokenizers are primarily designed to improve reconstruction fidelity or inherit pretrained representations, leaving unclear what kind of latent space is truly friendly for generative modeling. In this paper, we study this question from the perspective of latent manifold organization. By constructing controlled tokenizer variants, we identify three key properties of a diffusion-friendly latent manifold: coherent spatial structure, local manifold continuity, and global manifold semantics. We find that these properties are more consistent with downstream generation quality than reconstruction fidelity. Motivated by this finding, we propose the Prior-Aligned AutoEncoder (PAE), which explicitly shapes the latent manifold instead of leaving diffusion-friendly manifold to emerge indirectly from reconstruction or inheritance. Specifically, PAE leverages refined priors derived from VFMs and perturbation-based regularization to turn spatial structure, local continuity, and global semantics into explicit training objectives. On ImageNet 256x256, PAE improves both training efficiency and generation quality over existing tokenizers, reaching performance comparable to RAE with up to 13x faster convergence under the same training setup and achieving a new state-of-the-art gFID of 1.03. These results highlight the importance of organizing the latent manifold for latent diffusion models.

¿Qué Importa para una Variedad Latente Amigable con la Difusión? Autoencoders Alineados con el Previo para Difusión Latente

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

Resumen

Support