Le Variabili Latenti Ipersferiche Migliorano la Generazione Autoregressiva a Token Continui

Abstract

I modelli autoregressivi (AR) si dimostrano promettenti per la generazione di immagini, tuttavia le varianti AR a token continui spesso rimangono indietro rispetto ai modelli di diffusione latente e di generazione mascherata. Il problema principale risiede nella varianza eterogenea nei latenti dei VAE, che viene amplificata durante la decodifica AR, specialmente sotto la guida senza classificatore (CFG), e può causare un collasso della varianza. Proponiamo SphereAR per affrontare questo problema. Il suo design centrale consiste nel vincolare tutti gli input e output AR — inclusi quelli dopo la CFG — a giacere su una ipersfera a raggio fisso (norma ell_2 costante), sfruttando i VAE ipersferici. La nostra analisi teorica dimostra che il vincolo ipersferico rimuove la componente di scala (la causa principale del collasso della varianza), stabilizzando così la decodifica AR. Empiricamente, nella generazione su ImageNet, SphereAR-H (943M) stabilisce un nuovo stato dell'arte per i modelli AR, raggiungendo un FID di 1.34. Anche a scale più ridotte, SphereAR-L (479M) raggiunge un FID di 1.54 e SphereAR-B (208M) arriva a 1.92, eguagliando o superando baseline molto più grandi come MAR-H (943M, 1.55) e VAR-d30 (2B, 1.92). Per quanto ne sappiamo, questa è la prima volta che un generatore di immagini AR puro a token successivi con ordine raster supera i modelli di diffusione e generazione mascherata a scale di parametri comparabili.

English

Autoregressive (AR) models are promising for image generation, yet continuous-token AR variants often trail latent diffusion and masked-generation models. The core issue is heterogeneous variance in VAE latents, which is amplified during AR decoding, especially under classifier-free guidance (CFG), and can cause variance collapse. We propose SphereAR to address this issue. Its core design is to constrain all AR inputs and outputs -- including after CFG -- to lie on a fixed-radius hypersphere (constant ell_2 norm), leveraging hyperspherical VAEs. Our theoretical analysis shows that hyperspherical constraint removes the scale component (the primary cause of variance collapse), thereby stabilizing AR decoding. Empirically, on ImageNet generation, SphereAR-H (943M) sets a new state of the art for AR models, achieving FID 1.34. Even at smaller scales, SphereAR-L (479M) reaches FID 1.54 and SphereAR-B (208M) reaches 1.92, matching or surpassing much larger baselines such as MAR-H (943M, 1.55) and VAR-d30 (2B, 1.92). To our knowledge, this is the first time a pure next-token AR image generator with raster order surpasses diffusion and masked-generation models at comparable parameter scales.

Le Variabili Latenti Ipersferiche Migliorano la Generazione Autoregressiva a Token Continui

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

Abstract

Support