ChatPaper.aiChatPaper

초구형 잠재 공간이 연속 토큰 자기회귀 생성 성능을 향상시킨다

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

September 29, 2025
저자: Guolin Ke, Hui Xue
cs.AI

초록

자기회귀(AR) 모델은 이미지 생성에 있어 유망한 접근법이지만, 연속 토큰 AR 변형 모델들은 잠재 확산(latent diffusion) 및 마스크 생성(masked-generation) 모델에 비해 종종 뒤처지는 모습을 보입니다. 이 문제의 핵심은 VAE 잠재 공간에서의 이질적 분산(heterogeneous variance)에 있으며, 이는 특히 분류기 없는 지도(classifier-free guidance, CFG) 하에서 AR 디코딩 과정에서 증폭되어 분산 붕괴(variance collapse)를 초래할 수 있습니다. 우리는 이 문제를 해결하기 위해 SphereAR를 제안합니다. SphereAR의 핵심 설계는 모든 AR 입력과 출력(CFG 이후 포함)을 고정 반경의 초구(hypersphere, 일정한 ell_2 노름) 위에 위치하도록 제약하는 것으로, 이를 위해 초구형 VAE(hyperspherical VAEs)를 활용합니다. 우리의 이론적 분석은 초구형 제약이 스케일 요소(분산 붕괴의 주요 원인)를 제거함으로써 AR 디코딩을 안정화한다는 것을 보여줍니다. 실험적으로, ImageNet 생성에서 SphereAR-H(943M)는 AR 모델의 새로운 최첨단 성능을 달성하며 FID 1.34를 기록했습니다. 더 작은 규모에서도 SphereAR-L(479M)은 FID 1.54를, SphereAR-B(208M)은 1.92를 달성하여 MAR-H(943M, 1.55) 및 VAR-d30(2B, 1.92)와 같은 훨씬 더 큰 기준 모델을 능가하거나 비슷한 성능을 보였습니다. 우리가 아는 한, 이는 래스터 순서(raster order)를 사용하는 순수한 다음 토큰 AR 이미지 생성기가 비슷한 매개변수 규모에서 확산 및 마스크 생성 모델을 능가한 첫 사례입니다.
English
Autoregressive (AR) models are promising for image generation, yet continuous-token AR variants often trail latent diffusion and masked-generation models. The core issue is heterogeneous variance in VAE latents, which is amplified during AR decoding, especially under classifier-free guidance (CFG), and can cause variance collapse. We propose SphereAR to address this issue. Its core design is to constrain all AR inputs and outputs -- including after CFG -- to lie on a fixed-radius hypersphere (constant ell_2 norm), leveraging hyperspherical VAEs. Our theoretical analysis shows that hyperspherical constraint removes the scale component (the primary cause of variance collapse), thereby stabilizing AR decoding. Empirically, on ImageNet generation, SphereAR-H (943M) sets a new state of the art for AR models, achieving FID 1.34. Even at smaller scales, SphereAR-L (479M) reaches FID 1.54 and SphereAR-B (208M) reaches 1.92, matching or surpassing much larger baselines such as MAR-H (943M, 1.55) and VAR-d30 (2B, 1.92). To our knowledge, this is the first time a pure next-token AR image generator with raster order surpasses diffusion and masked-generation models at comparable parameter scales.
PDF62September 30, 2025