Segui il Tuo Istinto: Scalare la Fiducia per la Generazione Autoregressiva di Immagini
Go with Your Gut: Scaling Confidence for Autoregressive Image Generation
September 30, 2025
Autori: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI
Abstract
Il ridimensionamento al momento del test (Test-time Scaling, TTS) ha dimostrato un successo notevole nel potenziare i grandi modelli linguistici, ma la sua applicazione alla generazione autoregressiva (AR) di immagini basata sulla previsione del token successivo (Next-token Prediction, NTP) rimane in gran parte inesplorata. Gli approcci TTS esistenti per l'AR visivo (Visual AR, VAR), che si basano su una decodifica parziale frequente e su modelli di ricompensa esterni, sono poco adatti alla generazione di immagini basata su NTP a causa dell'incompletezza intrinseca dei risultati di decodifica intermedi. Per colmare questa lacuna, introduciamo ScalingAR, il primo framework TTS specificamente progettato per la generazione di immagini AR basata su NTP che elimina la necessità di decodifica precoce o ricompense ausiliarie. ScalingAR sfrutta l'entropia dei token come segnale innovativo nella generazione di token visivi e opera su due livelli di ridimensionamento complementari: (i) Livello Profilo, che trasmette uno stato di confidenza calibrato fondendo segnali intrinseci e condizionali; e (ii) Livello Politica, che utilizza questo stato per terminare adattivamente traiettorie a bassa confidenza e pianificare dinamicamente la guida per una forza di condizionamento appropriata alla fase. Gli esperimenti su benchmark generali e compositivi mostrano che ScalingAR (1) migliora i modelli di base del 12,5% su GenEval e del 15,2% su TIIF-Bench, (2) riduce efficientemente il consumo di token visivi del 62,0% superando i baseline, e (3) migliora con successo la robustezza, mitigando i cali di prestazioni del 26,0% in scenari impegnativi.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing
large language models, yet its application to next-token prediction (NTP)
autoregressive (AR) image generation remains largely uncharted. Existing TTS
approaches for visual AR (VAR), which rely on frequent partial decoding and
external reward models, are ill-suited for NTP-based image generation due to
the inherent incompleteness of intermediate decoding results. To bridge this
gap, we introduce ScalingAR, the first TTS framework specifically designed for
NTP-based AR image generation that eliminates the need for early decoding or
auxiliary rewards. ScalingAR leverages token entropy as a novel signal in
visual token generation and operates at two complementary scaling levels: (i)
Profile Level, which streams a calibrated confidence state by fusing intrinsic
and conditional signals; and (ii) Policy Level, which utilizes this state to
adaptively terminate low-confidence trajectories and dynamically schedule
guidance for phase-appropriate conditioning strength. Experiments on both
general and compositional benchmarks show that ScalingAR (1) improves base
models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces
visual token consumption by 62.0% while outperforming baselines, and (3)
successfully enhances robustness, mitigating performance drops by 26.0% in
challenging scenarios.