Les modèles visuels autorégressifs surpassent les modèles de diffusion en termes d'échelle du temps d'inférence
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
October 19, 2025
papers.authors: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
papers.abstract
Bien que la mise à l'échelle au moment de l'inférence grâce à la recherche ait révolutionné les modèles de langage de grande taille, la transposition de ces avancées à la génération d'images s'est avérée difficile. Les tentatives récentes d'appliquer des stratégies de recherche aux modèles de diffusion continus montrent des bénéfices limités, avec un échantillonnage aléatoire simple souvent performant. Nous démontrons que la nature discrète et séquentielle des modèles autoregressifs visuels permet une recherche efficace pour la génération d'images. Nous montrons que la recherche par faisceau améliore considérablement la génération de texte à image, permettant à un modèle autoregressif de 2 milliards de paramètres de surpasser un modèle de diffusion de 12 milliards de paramètres sur plusieurs benchmarks. Des ablations systématiques montrent que cet avantage provient de l'espace de jetons discret, qui permet un élagage précoce et une réutilisation des calculs, et notre analyse de vérificateur met en lumière les compromis entre vitesse et capacité de raisonnement. Ces résultats suggèrent que l'architecture du modèle, et pas seulement l'échelle, est cruciale pour l'optimisation au moment de l'inférence dans la génération visuelle.
English
While inference-time scaling through search has revolutionized Large Language
Models, translating these gains to image generation has proven difficult.
Recent attempts to apply search strategies to continuous diffusion models show
limited benefits, with simple random sampling often performing best. We
demonstrate that the discrete, sequential nature of visual autoregressive
models enables effective search for image generation. We show that beam search
substantially improves text-to-image generation, enabling a 2B parameter
autoregressive model to outperform a 12B parameter diffusion model across
benchmarks. Systematic ablations show that this advantage comes from the
discrete token space, which allows early pruning and computational reuse, and
our verifier analysis highlights trade-offs between speed and reasoning
capability. These findings suggest that model architecture, not just scale, is
critical for inference-time optimization in visual generation.