Visuelle autoregressive Modelle übertreffen Diffusionsmodelle bei der Skalierung der Inferenzzeit

papers.abstract

Während die Skalierung zur Inferenzzeit durch Suchverfahren die Welt der großen Sprachmodelle revolutioniert hat, gestaltet sich die Übertragung dieser Fortschritte auf die Bildgenerierung als schwierig. Jüngste Versuche, Suchstrategien auf kontinuierliche Diffusionsmodelle anzuwenden, zeigen nur begrenzte Vorteile, wobei einfaches zufälliges Sampling oft die besten Ergebnisse liefert. Wir demonstrieren, dass die diskrete, sequenzielle Natur visueller autoregressiver Modelle eine effektive Suche für die Bildgenerierung ermöglicht. Wir zeigen, dass die Beam-Search-Methode die Text-zu-Bild-Generierung erheblich verbessert und es einem autoregressiven Modell mit 2 Milliarden Parametern ermöglicht, ein Diffusionsmodell mit 12 Milliarden Parametern in Benchmarks zu übertreffen. Systematische Ablationen zeigen, dass dieser Vorteil aus dem diskreten Token-Raum resultiert, der ein frühes Pruning und die Wiederverwendung von Berechnungen ermöglicht, und unsere Verifikator-Analyse hebt die Kompromisse zwischen Geschwindigkeit und Denkfähigkeit hervor. Diese Erkenntnisse deuten darauf hin, dass die Modellarchitektur, nicht nur die Skalierung, entscheidend für die Optimierung zur Inferenzzeit in der visuellen Generierung ist.

English

While inference-time scaling through search has revolutionized Large Language Models, translating these gains to image generation has proven difficult. Recent attempts to apply search strategies to continuous diffusion models show limited benefits, with simple random sampling often performing best. We demonstrate that the discrete, sequential nature of visual autoregressive models enables effective search for image generation. We show that beam search substantially improves text-to-image generation, enabling a 2B parameter autoregressive model to outperform a 12B parameter diffusion model across benchmarks. Systematic ablations show that this advantage comes from the discrete token space, which allows early pruning and computational reuse, and our verifier analysis highlights trade-offs between speed and reasoning capability. These findings suggest that model architecture, not just scale, is critical for inference-time optimization in visual generation.

Visuelle autoregressive Modelle übertreffen Diffusionsmodelle bei der Skalierung der Inferenzzeit

Visual Autoregressive Models Beat Diffusion Models on Inference Time Scaling

papers.abstract

Support