直感に従え:自己回帰型画像生成における信頼度のスケーリング
Go with Your Gut: Scaling Confidence for Autoregressive Image Generation
September 30, 2025
著者: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI
要旨
テストタイムスケーリング(TTS)は大規模言語モデルの性能向上において顕著な成功を収めてきたが、次トークン予測(NTP)に基づく自己回帰的(AR)画像生成への応用はほとんど未開拓の領域である。既存の視覚的AR(VAR)向けTTSアプローチは、頻繁な部分デコードと外部報酬モデルに依存しており、中間デコード結果の本質的な不完全性のため、NTPベースの画像生成には不適切である。このギャップを埋めるため、我々はScalingARを提案する。これは、早期デコードや補助的な報酬を必要とせず、NTPベースのAR画像生成に特化した初のTTSフレームワークである。ScalingARは、視覚的トークン生成における新たな信号としてトークンエントロピーを活用し、2つの補完的なスケーリングレベルで動作する:(i)プロファイルレベルでは、内在的および条件的信号を融合させて調整された信頼状態をストリーミングし、(ii)ポリシーレベルでは、この状態を利用して低信頼度の軌跡を適応的に終了し、フェーズに適した条件付け強度のガイダンスを動的にスケジュールする。一般的および構成的なベンチマークでの実験により、ScalingARは(1)GenEvalで12.5%、TIIF-Benchで15.2%ベースモデルを改善し、(2)ベースラインを上回りながら視覚的トークン消費を62.0%効率的に削減し、(3)堅牢性を向上させ、困難なシナリオでの性能低下を26.0%軽減することに成功した。
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing
large language models, yet its application to next-token prediction (NTP)
autoregressive (AR) image generation remains largely uncharted. Existing TTS
approaches for visual AR (VAR), which rely on frequent partial decoding and
external reward models, are ill-suited for NTP-based image generation due to
the inherent incompleteness of intermediate decoding results. To bridge this
gap, we introduce ScalingAR, the first TTS framework specifically designed for
NTP-based AR image generation that eliminates the need for early decoding or
auxiliary rewards. ScalingAR leverages token entropy as a novel signal in
visual token generation and operates at two complementary scaling levels: (i)
Profile Level, which streams a calibrated confidence state by fusing intrinsic
and conditional signals; and (ii) Policy Level, which utilizes this state to
adaptively terminate low-confidence trajectories and dynamically schedule
guidance for phase-appropriate conditioning strength. Experiments on both
general and compositional benchmarks show that ScalingAR (1) improves base
models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces
visual token consumption by 62.0% while outperforming baselines, and (3)
successfully enhances robustness, mitigating performance drops by 26.0% in
challenging scenarios.