ChatPaper.aiChatPaper

Suivez Votre Intuition : Mise à l'échelle de la Confiance pour la Génération d'Images Autoregressive

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

September 30, 2025
papers.authors: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI

papers.abstract

Le redimensionnement au moment du test (Test-time Scaling, TTS) a démontré un succès remarquable dans l'amélioration des grands modèles de langage, mais son application à la génération d'images autoregressive (AR) basée sur la prédiction du token suivant (Next-Token Prediction, NTP) reste largement inexplorée. Les approches existantes de TTS pour l'AR visuelle (Visual AR, VAR), qui reposent sur un décodage partiel fréquent et des modèles de récompense externes, sont mal adaptées à la génération d'images basée sur la NTP en raison de l'incomplétude inhérente des résultats de décodage intermédiaires. Pour combler cette lacune, nous introduisons ScalingAR, le premier cadre TTS spécifiquement conçu pour la génération d'images AR basée sur la NTP, éliminant le besoin de décodage précoce ou de récompenses auxiliaires. ScalingAR exploite l'entropie des tokens comme un signal novateur dans la génération de tokens visuels et opère à deux niveaux de redimensionnement complémentaires : (i) le niveau Profil, qui diffuse un état de confiance calibré en fusionnant des signaux intrinsèques et conditionnels ; et (ii) le niveau Politique, qui utilise cet état pour interrompre de manière adaptative les trajectoires à faible confiance et planifier dynamiquement le guidage pour une force de conditionnement adaptée à la phase. Les expériences sur des benchmarks généraux et compositionnels montrent que ScalingAR (1) améliore les modèles de base de 12,5 % sur GenEval et de 15,2 % sur TIIF-Bench, (2) réduit efficacement la consommation de tokens visuels de 62,0 % tout en surpassant les modèles de référence, et (3) améliore avec succès la robustesse, atténuant les baisses de performance de 26,0 % dans des scénarios difficiles.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing large language models, yet its application to next-token prediction (NTP) autoregressive (AR) image generation remains largely uncharted. Existing TTS approaches for visual AR (VAR), which rely on frequent partial decoding and external reward models, are ill-suited for NTP-based image generation due to the inherent incompleteness of intermediate decoding results. To bridge this gap, we introduce ScalingAR, the first TTS framework specifically designed for NTP-based AR image generation that eliminates the need for early decoding or auxiliary rewards. ScalingAR leverages token entropy as a novel signal in visual token generation and operates at two complementary scaling levels: (i) Profile Level, which streams a calibrated confidence state by fusing intrinsic and conditional signals; and (ii) Policy Level, which utilizes this state to adaptively terminate low-confidence trajectories and dynamically schedule guidance for phase-appropriate conditioning strength. Experiments on both general and compositional benchmarks show that ScalingAR (1) improves base models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces visual token consumption by 62.0% while outperforming baselines, and (3) successfully enhances robustness, mitigating performance drops by 26.0% in challenging scenarios.
PDF82October 3, 2025