ChatPaper.aiChatPaper

Les latents hypersphériques améliorent la génération autoregressive à jetons continus

Hyperspherical Latents Improve Continuous-Token Autoregressive Generation

September 29, 2025
papers.authors: Guolin Ke, Hui Xue
cs.AI

papers.abstract

Les modèles autorégressifs (AR) sont prometteurs pour la génération d'images, mais les variantes AR à jetons continus restent souvent en retrait par rapport aux modèles de diffusion latente et de génération masquée. Le problème central réside dans l'hétérogénéité de la variance des latents des VAE, qui est amplifiée lors du décodage AR, en particulier sous le guidage sans classifieur (CFG), et peut entraîner un effondrement de la variance. Nous proposons SphereAR pour résoudre ce problème. Son concept central consiste à contraindre toutes les entrées et sorties AR — y compris après CFG — à se situer sur une hypersphère de rayon fixe (norme ell_2 constante), en exploitant les VAE hypersphériques. Notre analyse théorique montre que la contrainte hypersphérique élimine la composante d'échelle (principale cause de l'effondrement de la variance), stabilisant ainsi le décodage AR. Empiriquement, sur la génération d'ImageNet, SphereAR-H (943M) établit un nouvel état de l'art pour les modèles AR, atteignant un FID de 1,34. Même à des échelles plus réduites, SphereAR-L (479M) atteint un FID de 1,54 et SphereAR-B (208M) atteint 1,92, égalant ou surpassant des modèles de référence bien plus volumineux tels que MAR-H (943M, 1,55) et VAR-d30 (2B, 1,92). À notre connaissance, c'est la première fois qu'un générateur d'images AR pur basé sur le prédiction du jeton suivant avec un ordre raster surpasse les modèles de diffusion et de génération masquée à des échelles de paramètres comparables.
English
Autoregressive (AR) models are promising for image generation, yet continuous-token AR variants often trail latent diffusion and masked-generation models. The core issue is heterogeneous variance in VAE latents, which is amplified during AR decoding, especially under classifier-free guidance (CFG), and can cause variance collapse. We propose SphereAR to address this issue. Its core design is to constrain all AR inputs and outputs -- including after CFG -- to lie on a fixed-radius hypersphere (constant ell_2 norm), leveraging hyperspherical VAEs. Our theoretical analysis shows that hyperspherical constraint removes the scale component (the primary cause of variance collapse), thereby stabilizing AR decoding. Empirically, on ImageNet generation, SphereAR-H (943M) sets a new state of the art for AR models, achieving FID 1.34. Even at smaller scales, SphereAR-L (479M) reaches FID 1.54 and SphereAR-B (208M) reaches 1.92, matching or surpassing much larger baselines such as MAR-H (943M, 1.55) and VAR-d30 (2B, 1.92). To our knowledge, this is the first time a pure next-token AR image generator with raster order surpasses diffusion and masked-generation models at comparable parameter scales.
PDF62September 30, 2025