IDEAL: 심층 정렬을 통한 이산 표현 오토인코더
IDEAL: In-DEpth ALignment Makes A Discrete Representation AutoEncoder
June 9, 2026
저자: Yitong Chen, Zijie Diao, Junke Wang, Lingyu Kong, Yixuan Ren, Bo He, Yu-Gang Jiang, Zuxuan Wu
cs.AI
초록
사전 학습된 비전 파운데이션 모델(VFM)을 기반으로 한 표현 오토인코더(RAE)는 최근 이미지 생성을 위한 의미적으로 풍부한 잠재 공간을 구축하는 유망한 접근 방식으로 부상했다. 그러나 이러한 모델의 재구성 품질은 종종 최적에 미치지 못하는데, 이는 주로 깊은 VFM 표현이 충분한 세부 시각 정보를 보존하지 못하기 때문이다. 이러한 한계는 이산화 후에 더욱 심각해지며, 누락된 저수준 정보를 복구하기 어려워진다. 실제로, 우리는 얕은 VFM 특징이 상당히 풍부한 국소적 외관 및 구조적 세부 정보를 유지하여, 기존 RAE에서 사용되는 깊은 특징이 제공하는 고수준 의미 정보를 보완한다는 것을 관찰했다. 이러한 상보적 특성에 착안하여, 우리는 이산 표현 오토인코딩을 위한 심층 정렬 프레임워크인 Ideal을 제안한다. Ideal은 양자화된 토큰을 얕은 VFM 특징과 깊은 VFM 특징 모두에 정렬함으로써, 결과적인 이산 시각 토큰이 시각적 충실도와 풍부한 의미 정보를 동시에 보존할 수 있도록 한다. 광범위한 실험을 통해 Ideal은 ImageNet에서 0.61의 rFID를 달성하여 이전 최고 방법보다 0.28 더 우수한 재구성 성능을 나타냄을 입증했다. 또한 자동회귀 이미지 생성에 사용될 때, Ideal은 1.89의 gFID를 달성하여 자동회귀 이미지 생성 분야에서 새로운 최고 성능을 수립한다.
English
Built on pretrained vision foundation models (VFMs), representation autoencoders (RAEs) have recently emerged as a promising approach for constructing semantically rich latent spaces for image generation. However, their reconstruction quality often remains suboptimal, largely because deep VFM representations do not preserve sufficient fine-grained visual detail. This limitation becomes even more severe after discretization, where missing low-level information is difficult to recover. In fact, we observe that shallow VFM features retain considerably richer local appearance and structural detail, which complements the high-level semantics carried by deep features used in existing RAEs. Motivated by this complementary property, we propose Ideal, an In-depth Alignment framework for discrete representation autoencoding. By jointly aligning quantized tokens with both shallow and deep VFM features, Ideal enables the resulting discrete visual tokens to preserve both visual fidelity and rich semantics. Extensive experiments demonstrate that Ideal yields superior reconstruction performance, achieving 0.61 rFID on ImageNet and outperforming the previous best method by 0.28. When used for autoregressive image generation, Ideal further produces a gFID of 1.89, establishing a new state of the art for autoregressive image generation.