Hypersphärische latente Variablen verbessern die autoregressive Generierung kontinuierlicher Token
Hyperspherical Latents Improve Continuous-Token Autoregressive Generation
September 29, 2025
papers.authors: Guolin Ke, Hui Xue
cs.AI
papers.abstract
Autoregressive (AR)-Modelle sind vielversprechend für die Bildgenerierung, doch kontinuierliche Token-AR-Varianten liegen oft hinter latenten Diffusions- und Maskengenerierungsmodellen zurück. Das Kernproblem ist die heterogene Varianz in VAE-Latents, die während der AR-Decodierung verstärkt wird, insbesondere unter classifier-free guidance (CFG), und zu einem Varianzkollaps führen kann. Wir schlagen SphereAR vor, um dieses Problem zu lösen. Sein Kernkonzept besteht darin, alle AR-Eingaben und -Ausgaben – einschließlich nach CFG – auf einer Hypersphäre mit festem Radius (konstanter ℓ₂-Norm) zu beschränken, wobei hypersphärische VAEs genutzt werden. Unsere theoretische Analyse zeigt, dass die hypersphärische Beschränkung die Skalenkomponente (die Hauptursache für den Varianzkollaps) entfernt und dadurch die AR-Decodierung stabilisiert. Empirisch erreicht SphereAR-H (943M) bei der ImageNet-Generierung einen neuen State-of-the-Art für AR-Modelle mit einem FID von 1,34. Selbst bei kleineren Skalen erreicht SphereAR-L (479M) einen FID von 1,54 und SphereAR-B (208M) einen FID von 1,92, womit es vergleichbare oder größere Baselines wie MAR-H (943M, 1,55) und VAR-d30 (2B, 1,92) übertrifft. Unseres Wissens ist dies das erste Mal, dass ein reiner Next-Token-AR-Bildgenerator mit Rasterreihenfolge Diffusions- und Maskengenerierungsmodelle bei vergleichbaren Parameterskalen übertrifft.
English
Autoregressive (AR) models are promising for image generation, yet
continuous-token AR variants often trail latent diffusion and masked-generation
models. The core issue is heterogeneous variance in VAE latents, which is
amplified during AR decoding, especially under classifier-free guidance (CFG),
and can cause variance collapse. We propose SphereAR to address this issue. Its
core design is to constrain all AR inputs and outputs -- including after CFG --
to lie on a fixed-radius hypersphere (constant ell_2 norm), leveraging
hyperspherical VAEs. Our theoretical analysis shows that hyperspherical
constraint removes the scale component (the primary cause of variance
collapse), thereby stabilizing AR decoding. Empirically, on ImageNet
generation, SphereAR-H (943M) sets a new state of the art for AR models,
achieving FID 1.34. Even at smaller scales, SphereAR-L (479M) reaches FID 1.54
and SphereAR-B (208M) reaches 1.92, matching or surpassing much larger
baselines such as MAR-H (943M, 1.55) and VAR-d30 (2B, 1.92). To our knowledge,
this is the first time a pure next-token AR image generator with raster order
surpasses diffusion and masked-generation models at comparable parameter
scales.