Les modèles visuels autorégressifs surpassent les modèles de diffusion en termes d'échelle du temps d'inférence

papers.abstract

Bien que la mise à l'échelle au moment de l'inférence grâce à la recherche ait révolutionné les modèles de langage de grande taille, la transposition de ces avancées à la génération d'images s'est avérée difficile. Les tentatives récentes d'appliquer des stratégies de recherche aux modèles de diffusion continus montrent des bénéfices limités, avec un échantillonnage aléatoire simple souvent performant. Nous démontrons que la nature discrète et séquentielle des modèles autoregressifs visuels permet une recherche efficace pour la génération d'images. Nous montrons que la recherche par faisceau améliore considérablement la génération de texte à image, permettant à un modèle autoregressif de 2 milliards de paramètres de surpasser un modèle de diffusion de 12 milliards de paramètres sur plusieurs benchmarks. Des ablations systématiques montrent que cet avantage provient de l'espace de jetons discret, qui permet un élagage précoce et une réutilisation des calculs, et notre analyse de vérificateur met en lumière les compromis entre vitesse et capacité de raisonnement. Ces résultats suggèrent que l'architecture du modèle, et pas seulement l'échelle, est cruciale pour l'optimisation au moment de l'inférence dans la génération visuelle.

English

While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.

Les modèles visuels autorégressifs surpassent les modèles de diffusion en termes d'échelle du temps d'inférence

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

papers.abstract

Support