ChatPaper.aiChatPaper

Vertrauen Sie Ihrem Bauchgefühl: Skalierung von Konfidenz für autoregressive Bildgenerierung

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

September 30, 2025
papers.authors: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI

papers.abstract

Test-time Scaling (TTS) hat bemerkenswerte Erfolge bei der Verbesserung großer Sprachmodelle gezeigt, doch seine Anwendung auf die Next-Token-Prediction (NTP) in der autoregressiven (AR) Bildgenerierung bleibt weitgehend unerforscht. Bestehende TTS-Ansätze für visuelle AR (VAR), die auf häufiger partieller Dekodierung und externen Belohnungsmodellen basieren, sind für die NTP-basierte Bildgenerierung aufgrund der inhärenten Unvollständigkeit von Zwischendekodierungsergebnissen ungeeignet. Um diese Lücke zu schließen, führen wir ScalingAR ein, das erste TTS-Framework, das speziell für die NTP-basierte AR-Bildgenerierung entwickelt wurde und auf frühe Dekodierung oder zusätzliche Belohnungen verzichtet. ScalingAR nutzt die Token-Entropie als neuartiges Signal in der visuellen Token-Generierung und operiert auf zwei komplementären Skalierungsebenen: (i) Profilebene, die einen kalibrierten Konfidenzzustand durch die Fusion intrinsischer und konditionaler Signale streamt; und (ii) Policyebene, die diesen Zustand nutzt, um niedrige Konfidenzpfade adaptiv zu beenden und die Führung für eine phasenangemessene Konditionierungsstärke dynamisch zu planen. Experimente auf allgemeinen und kompositionellen Benchmarks zeigen, dass ScalingAR (1) Basismodelle um 12,5 % auf GenEval und 15,2 % auf TIIF-Bench verbessert, (2) den visuellen Token-Verbrauch effizient um 62,0 % reduziert, während es die Baselines übertrifft, und (3) die Robustheit erfolgreich steigert und Leistungseinbrüche in anspruchsvollen Szenarien um 26,0 % mildert.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing large language models, yet its application to next-token prediction (NTP) autoregressive (AR) image generation remains largely uncharted. Existing TTS approaches for visual AR (VAR), which rely on frequent partial decoding and external reward models, are ill-suited for NTP-based image generation due to the inherent incompleteness of intermediate decoding results. To bridge this gap, we introduce ScalingAR, the first TTS framework specifically designed for NTP-based AR image generation that eliminates the need for early decoding or auxiliary rewards. ScalingAR leverages token entropy as a novel signal in visual token generation and operates at two complementary scaling levels: (i) Profile Level, which streams a calibrated confidence state by fusing intrinsic and conditional signals; and (ii) Policy Level, which utilizes this state to adaptively terminate low-confidence trajectories and dynamically schedule guidance for phase-appropriate conditioning strength. Experiments on both general and compositional benchmarks show that ScalingAR (1) improves base models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces visual token consumption by 62.0% while outperforming baselines, and (3) successfully enhances robustness, mitigating performance drops by 26.0% in challenging scenarios.
PDF82October 3, 2025