Le Variabili Latenti Ipersferiche Migliorano la Generazione Autoregressiva a Token Continui
Hyperspherical Latents Improve Continuous-Token Autoregressive Generation
September 29, 2025
Autori: Guolin Ke, Hui Xue
cs.AI
Abstract
I modelli autoregressivi (AR) si dimostrano promettenti per la generazione di immagini, tuttavia le varianti AR a token continui spesso rimangono indietro rispetto ai modelli di diffusione latente e di generazione mascherata. Il problema principale risiede nella varianza eterogenea nei latenti dei VAE, che viene amplificata durante la decodifica AR, specialmente sotto la guida senza classificatore (CFG), e può causare un collasso della varianza. Proponiamo SphereAR per affrontare questo problema. Il suo design centrale consiste nel vincolare tutti gli input e output AR — inclusi quelli dopo la CFG — a giacere su una ipersfera a raggio fisso (norma ell_2 costante), sfruttando i VAE ipersferici. La nostra analisi teorica dimostra che il vincolo ipersferico rimuove la componente di scala (la causa principale del collasso della varianza), stabilizzando così la decodifica AR. Empiricamente, nella generazione su ImageNet, SphereAR-H (943M) stabilisce un nuovo stato dell'arte per i modelli AR, raggiungendo un FID di 1.34. Anche a scale più ridotte, SphereAR-L (479M) raggiunge un FID di 1.54 e SphereAR-B (208M) arriva a 1.92, eguagliando o superando baseline molto più grandi come MAR-H (943M, 1.55) e VAR-d30 (2B, 1.92). Per quanto ne sappiamo, questa è la prima volta che un generatore di immagini AR puro a token successivi con ordine raster supera i modelli di diffusione e generazione mascherata a scale di parametri comparabili.
English
Autoregressive (AR) models are promising for image generation, yet
continuous-token AR variants often trail latent diffusion and masked-generation
models. The core issue is heterogeneous variance in VAE latents, which is
amplified during AR decoding, especially under classifier-free guidance (CFG),
and can cause variance collapse. We propose SphereAR to address this issue. Its
core design is to constrain all AR inputs and outputs -- including after CFG --
to lie on a fixed-radius hypersphere (constant ell_2 norm), leveraging
hyperspherical VAEs. Our theoretical analysis shows that hyperspherical
constraint removes the scale component (the primary cause of variance
collapse), thereby stabilizing AR decoding. Empirically, on ImageNet
generation, SphereAR-H (943M) sets a new state of the art for AR models,
achieving FID 1.34. Even at smaller scales, SphereAR-L (479M) reaches FID 1.54
and SphereAR-B (208M) reaches 1.92, matching or surpassing much larger
baselines such as MAR-H (943M, 1.55) and VAR-d30 (2B, 1.92). To our knowledge,
this is the first time a pure next-token AR image generator with raster order
surpasses diffusion and masked-generation models at comparable parameter
scales.