Что важно для диффузионно-дружественного латентного многообразия? Автоэнкодеры, согласованные с априорным распределением, для латентной диффузии
What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion
May 8, 2026
Авторы: Zhengrong Yue, Taihang Hu, Mengting Chen, Haiyu Zhang, Zihao Pan, Tao Liu, Zikang Wang, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Yali Wang
cs.AI
Аннотация
Токенизаторы являются важнейшим компонентом латентных диффузионных моделей, поскольку они определяют латентное пространство, в котором работают эти модели. Однако существующие токенизаторы в первую очередь предназначены для улучшения точности реконструкции или наследования предварительно обученных представлений, оставляя неясным, какое латентное пространство действительно благоприятно для генеративного моделирования. В данной работе мы исследуем этот вопрос с точки зрения организации латентного многообразия. Путем построения контролируемых вариантов токенизаторов мы выявляем три ключевых свойства латентного многообразия, дружественного к диффузии: когерентную пространственную структуру, локальную непрерывность многообразия и глобальную семантику многообразия. Мы обнаруживаем, что эти свойства более согласованы с итоговым качеством генерации, чем точность реконструкции. Руководствуясь этим открытием, мы предлагаем Автоэнкодер с согласованием априорных данных (PAE), который явно формирует латентное многообразие, а не оставляет появление дружественного диффузии многообразия косвенному результату реконструкции или наследования. В частности, PAE использует уточненные априорные данные, полученные из фундаментальных моделей зрения (VFMs), и регуляризацию на основе возмущений, чтобы превратить пространственную структуру, локальную непрерывность и глобальную семантику в явные цели обучения. На ImageNet 256x256 PAE улучшает как эффективность обучения, так и качество генерации по сравнению с существующими токенизаторами, достигая производительности, сравнимой с RAE, при ускорении сходимости до 13 раз в той же конфигурации обучения и достигая нового передового показателя gFID, равного 1,03. Эти результаты подчеркивают важность организации латентного многообразия для латентных диффузионных моделей.
English
Tokenizers are a crucial component of latent diffusion models, as they define the latent space in which diffusion models operate. However, existing tokenizers are primarily designed to improve reconstruction fidelity or inherit pretrained representations, leaving unclear what kind of latent space is truly friendly for generative modeling. In this paper, we study this question from the perspective of latent manifold organization. By constructing controlled tokenizer variants, we identify three key properties of a diffusion-friendly latent manifold: coherent spatial structure, local manifold continuity, and global manifold semantics. We find that these properties are more consistent with downstream generation quality than reconstruction fidelity. Motivated by this finding, we propose the Prior-Aligned AutoEncoder (PAE), which explicitly shapes the latent manifold instead of leaving diffusion-friendly manifold to emerge indirectly from reconstruction or inheritance. Specifically, PAE leverages refined priors derived from VFMs and perturbation-based regularization to turn spatial structure, local continuity, and global semantics into explicit training objectives. On ImageNet 256x256, PAE improves both training efficiency and generation quality over existing tokenizers, reaching performance comparable to RAE with up to 13x faster convergence under the same training setup and achieving a new state-of-the-art gFID of 1.03. These results highlight the importance of organizing the latent manifold for latent diffusion models.