Hypersphärische latente Variablen verbessern die autoregressive Generierung kontinuierlicher Token

papers.abstract

Autoregressive (AR)-Modelle sind vielversprechend für die Bildgenerierung, doch kontinuierliche Token-AR-Varianten liegen oft hinter latenten Diffusions- und Maskengenerierungsmodellen zurück. Das Kernproblem ist die heterogene Varianz in VAE-Latents, die während der AR-Decodierung verstärkt wird, insbesondere unter classifier-free guidance (CFG), und zu einem Varianzkollaps führen kann. Wir schlagen SphereAR vor, um dieses Problem zu lösen. Sein Kernkonzept besteht darin, alle AR-Eingaben und -Ausgaben – einschließlich nach CFG – auf einer Hypersphäre mit festem Radius (konstanter ℓ₂-Norm) zu beschränken, wobei hypersphärische VAEs genutzt werden. Unsere theoretische Analyse zeigt, dass die hypersphärische Beschränkung die Skalenkomponente (die Hauptursache für den Varianzkollaps) entfernt und dadurch die AR-Decodierung stabilisiert. Empirisch erreicht SphereAR-H (943M) bei der ImageNet-Generierung einen neuen State-of-the-Art für AR-Modelle mit einem FID von 1,34. Selbst bei kleineren Skalen erreicht SphereAR-L (479M) einen FID von 1,54 und SphereAR-B (208M) einen FID von 1,92, womit es vergleichbare oder größere Baselines wie MAR-H (943M, 1,55) und VAR-d30 (2B, 1,92) übertrifft. Unseres Wissens ist dies das erste Mal, dass ein reiner Next-Token-AR-Bildgenerator mit Rasterreihenfolge Diffusions- und Maskengenerierungsmodelle bei vergleichbaren Parameterskalen übertrifft.

English

Autoregressive (AR) models are promising for image generation, yet continuous-token AR variants often trail latent diffusion and masked-generation models. The core issue is heterogeneous variance in VAE latents, which is amplified during AR decoding, especially under classifier-free guidance (CFG), and can cause variance collapse. We propose SphereAR to address this issue. Its core design is to constrain all AR inputs and outputs -- including after CFG -- to lie on a fixed-radius hypersphere (constant ell_2 norm), leveraging hyperspherical VAEs. Our theoretical analysis shows that hyperspherical constraint removes the scale component (the primary cause of variance collapse), thereby stabilizing AR decoding. Empirically, on ImageNet generation, SphereAR-H (943M) sets a new state of the art for AR models, achieving FID 1.34. Even at smaller scales, SphereAR-L (479M) reaches FID 1.54 and SphereAR-B (208M) reaches 1.92, matching or surpassing much larger baselines such as MAR-H (943M, 1.55) and VAR-d30 (2B, 1.92). To our knowledge, this is the first time a pure next-token AR image generator with raster order surpasses diffusion and masked-generation models at comparable parameter scales.

Hypersphärische latente Variablen verbessern die autoregressive Generierung kontinuierlicher Token

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

papers.abstract

Support