잠재 확산 모델의 분리 표현 정렬을 통한 성능 향상
Boosting Latent Diffusion Models via Disentangled Representation Alignment
January 9, 2026
저자: John Page, Xuesong Niu, Kai Wu, Kun Gai
cs.AI
초록
잠재 디퓨전 모델(LDM)은 일반적으로 변분 오토인코더(VAE)와 같은 이미지 토크나이저를 통해 얻어진 압축 잠재 공간에서 동작하여 고품질 이미지를 생성합니다. 생성에 적합한 VAE를 개발하기 위해 최근 연구들은 VAE의 표현 정렬 목표로 비전 파운데이션 모델(VFM)을 활용하는 방식을 탐구해 왔으며, 이는 LDM에 일반적으로 채택된 접근법을 따릅니다. 이는 일정한 성능 향상을 가져오지만, VAE와 LDM에 동일한 정렬 목표를 사용하는 것은 근본적으로 다른 두 모델의 표현 요구사항을 간과합니다. 우리는 LDM이 고수준 의미 개념을 보존하는 잠재 공간으로부터 이익을 얻는 반면, VAE는 의미적 분리를 통해 속성 수준 정보를 구조화된 방식으로 인코딩하는 데 뛰어나야 한다고 주장합니다. 이를 해결하기 위해 우리는 사전 훈련된 VFM의 의미 계층 구조와 잠재 공간을 정렬함으로써 명시적으로 분리된 표현 학습을 위해 최적화된 의미 분리 VAE(Send-VAE)를 제안합니다. 우리의 접근 방식은 VAE 잠재 변수를 변환하기 위한 비선형 매퍼 네트워크를 사용하여 이를 VFM과 정렬함으로써 속성 수준 분리와 고수준 의미 간의 간극을 메우고, VAE 학습에 효과적인 지도를 용이하게 합니다. 우리는 속성 예측 작업에 대한 선형 탐사를 통해 의미적 분리를 평가하며, 이가 향상된 생성 성능과 강한 상관 관계를 보임을 입증합니다. 마지막으로, Send-VAE를 사용하여 흐름 기반 변환기인 SiT를 훈련시킨 결과, Send-VAE가 훈련 속도를 크게 가속화하고 ImageNet 256x256에서 classifier-free guidance 사용 시 1.21, 미사용 시 1.75라는 최첨단 FID 값을 달성함을 실험을 통해 보여줍니다.
English
Latent Diffusion Models (LDMs) generate high-quality images by operating in a compressed latent space, typically obtained through image tokenizers such as Variational Autoencoders (VAEs). In pursuit of a generation-friendly VAE, recent studies have explored leveraging Vision Foundation Models (VFMs) as representation alignment targets for VAEs, mirroring the approach commonly adopted for LDMs. Although this yields certain performance gains, using the same alignment target for both VAEs and LDMs overlooks their fundamentally different representational requirements. We advocate that while LDMs benefit from latents retaining high-level semantic concepts, VAEs should excel in semantic disentanglement, enabling encoding of attribute-level information in a structured way. To address this, we propose the Semantic disentangled VAE (Send-VAE), explicitly optimized for disentangled representation learning through aligning its latent space with the semantic hierarchy of pre-trained VFMs. Our approach employs a non-linear mapper network to transform VAE latents, aligning them with VFMs to bridge the gap between attribute-level disentanglement and high-level semantics, facilitating effective guidance for VAE learning. We evaluate semantic disentanglement via linear probing on attribute prediction tasks, showing strong correlation with improved generation performance. Finally, using Send-VAE, we train flow-based transformers SiTs; experiments show Send-VAE significantly speeds up training and achieves a state-of-the-art FID of 1.21 and 1.75 with and without classifier-free guidance on ImageNet 256x256.