ChatPaper.aiChatPaper

I Modelli Autoregressivi Visivi Superano i Modelli di Diffusione nel Tempo di Inferenza in Scala

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

October 19, 2025
Autori: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI

Abstract

Mentre il ridimensionamento al momento dell'inferenza attraverso la ricerca ha rivoluzionato i Large Language Models, tradurre questi vantaggi nella generazione di immagini si è rivelato difficile. I recenti tentativi di applicare strategie di ricerca ai modelli di diffusione continua mostrano benefici limitati, con il semplice campionamento casuale che spesso si comporta meglio. Dimostriamo che la natura discreta e sequenziale dei modelli autoregressivi visivi consente una ricerca efficace per la generazione di immagini. Mostriamo che la beam search migliora sostanzialmente la generazione di immagini da testo, permettendo a un modello autoregressivo da 2 miliardi di parametri di superare un modello di diffusione da 12 miliardi di parametri in vari benchmark. Le ablazioni sistematiche dimostrano che questo vantaggio deriva dallo spazio dei token discreti, che consente una potatura precoce e il riutilizzo computazionale, e la nostra analisi del verificatore evidenzia i compromessi tra velocità e capacità di ragionamento. Questi risultati suggeriscono che l'architettura del modello, non solo la scala, è fondamentale per l'ottimizzazione al momento dell'inferenza nella generazione visiva.
English
While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.
PDF192October 21, 2025