ChatPaper.aiChatPaper

확산 친화적 잠재 다양체에 중요한 것은? 잠재 확산을 위한 사전 정렬 오토인코더

What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

May 8, 2026
저자: Zhengrong Yue, Taihang Hu, Mengting Chen, Haiyu Zhang, Zihao Pan, Tao Liu, Zikang Wang, Jinsong Lan, Xiaoyong Zhu, Bo Zheng, Yali Wang
cs.AI

초록

토크나이저는 잠재 확산 모델의 핵심 구성 요소로, 확산 모델이 작동하는 잠재 공간을 정의합니다. 그러나 기존 토크나이저는 주로 재구성 충실도를 개선하거나 사전 학습된 표현을 상속받도록 설계되어, 생성 모델링에 진정으로 적합한 잠재 공간이 무엇인지는 불분명한 상태입니다. 본 논문에서는 잠재 매니폴드 조직의 관점에서 이 질문을 연구합니다. 통제된 토크나이저 변형을 구성함으로써, 확산에 적합한 잠재 매니폴드의 세 가지 핵심 속성, 즉 일관된 공간 구조, 국소적 매니폴드 연속성, 그리고 전역적 매니폴드 의미론을 식별합니다. 이러한 속성은 재구성 충실도보다 하위 생성 품질과 더 일관성이 있음을 발견했습니다. 이 발견에 기초하여, 확산에 적합한 매니폴드가 재구성 또는 상속을 통해 간접적으로 나타나도록 두는 대신 잠재 매니폴드를 명시적으로 형성하는 사전 정렬 오토인코더(PAE)를 제안합니다. 구체적으로, PAE는 VFM에서 도출된 정제된 사전 지식과 섭동 기반 정규화를 활용하여 공간 구조, 국소적 연속성, 전역적 의미론을 명시적 훈련 목표로 전환합니다. ImageNet 256x256에서 PAE는 기존 토크나이저보다 훈련 효율성과 생성 품질을 모두 개선하여, 동일한 훈련 설정에서 최대 13배 빠른 수렴 속도로 RAE에 필적하는 성능에 도달하고 1.03의 새로운 최첨단 gFID를 달성합니다. 이러한 결과는 잠재 확산 모델에서 잠재 매니폴드를 조직하는 것의 중요성을 강조합니다.
English
Tokenizers are a crucial component of latent diffusion models, as they define the latent space in which diffusion models operate. However, existing tokenizers are primarily designed to improve reconstruction fidelity or inherit pretrained representations, leaving unclear what kind of latent space is truly friendly for generative modeling. In this paper, we study this question from the perspective of latent manifold organization. By constructing controlled tokenizer variants, we identify three key properties of a diffusion-friendly latent manifold: coherent spatial structure, local manifold continuity, and global manifold semantics. We find that these properties are more consistent with downstream generation quality than reconstruction fidelity. Motivated by this finding, we propose the Prior-Aligned AutoEncoder (PAE), which explicitly shapes the latent manifold instead of leaving diffusion-friendly manifold to emerge indirectly from reconstruction or inheritance. Specifically, PAE leverages refined priors derived from VFMs and perturbation-based regularization to turn spatial structure, local continuity, and global semantics into explicit training objectives. On ImageNet 256x256, PAE improves both training efficiency and generation quality over existing tokenizers, reaching performance comparable to RAE with up to 13x faster convergence under the same training setup and achieving a new state-of-the-art gFID of 1.03. These results highlight the importance of organizing the latent manifold for latent diffusion models.
PDF71May 12, 2026