Visuelle autoregressive Modelle übertreffen Diffusionsmodelle bei der Skalierung der Inferenzzeit
Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling
October 19, 2025
papers.authors: Erik Riise, Mehmet Onurcan Kaya, Dim P. Papadopoulos
cs.AI
papers.abstract
Während die Skalierung zur Inferenzzeit durch Suchverfahren die Welt der großen Sprachmodelle revolutioniert hat, gestaltet sich die Übertragung dieser Fortschritte auf die Bildgenerierung als schwierig. Jüngste Versuche, Suchstrategien auf kontinuierliche Diffusionsmodelle anzuwenden, zeigen nur begrenzte Vorteile, wobei einfaches zufälliges Sampling oft die besten Ergebnisse liefert. Wir demonstrieren, dass die diskrete, sequenzielle Natur visueller autoregressiver Modelle eine effektive Suche für die Bildgenerierung ermöglicht. Wir zeigen, dass die Beam-Search-Methode die Text-zu-Bild-Generierung erheblich verbessert und es einem autoregressiven Modell mit 2 Milliarden Parametern ermöglicht, ein Diffusionsmodell mit 12 Milliarden Parametern in Benchmarks zu übertreffen. Systematische Ablationen zeigen, dass dieser Vorteil aus dem diskreten Token-Raum resultiert, der ein frühes Pruning und die Wiederverwendung von Berechnungen ermöglicht, und unsere Verifikator-Analyse hebt die Kompromisse zwischen Geschwindigkeit und Denkfähigkeit hervor. Diese Erkenntnisse deuten darauf hin, dass die Modellarchitektur, nicht nur die Skalierung, entscheidend für die Optimierung zur Inferenzzeit in der visuellen Generierung ist.
English
While inference-time scaling through search has revolutionized Large Language
Models, translating these gains to image generation has proven difficult.
Recent attempts to apply search strategies to continuous diffusion models show
limited benefits, with simple random sampling often performing best. We
demonstrate that the discrete, sequential nature of visual autoregressive
models enables effective search for image generation. We show that beam search
substantially improves text-to-image generation, enabling a 2B parameter
autoregressive model to outperform a 12B parameter diffusion model across
benchmarks. Systematic ablations show that this advantage comes from the
discrete token space, which allows early pruning and computational reuse, and
our verifier analysis highlights trade-offs between speed and reasoning
capability. These findings suggest that model architecture, not just scale, is
critical for inference-time optimization in visual generation.