ChatPaper.aiChatPaper

Ga op je Gevoel Af: Schaalbaar Vertrouwen voor Autoregressieve Beeldgeneratie

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

September 30, 2025
Auteurs: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI

Samenvatting

Test-time scaling (TTS) heeft opmerkelijke successen geboekt bij het verbeteren van grote taalmodel(len), maar de toepassing ervan op next-token prediction (NTP) autoregressieve (AR) beeldgeneratie blijft grotendeels onontgonnen. Bestaande TTS-benaderingen voor visuele AR (VAR), die afhankelijk zijn van frequente gedeeltelijke decodering en externe beloningsmodellen, zijn ongeschikt voor NTP-gebaseerde beeldgeneratie vanwege de inherente onvolledigheid van tussentijdse decoderingsresultaten. Om deze kloof te overbruggen, introduceren we ScalingAR, het eerste TTS-framework dat specifiek is ontworpen voor NTP-gebaseerde AR-beeldgeneratie en dat geen behoefte heeft aan vroege decodering of aanvullende beloningen. ScalingAR benut token-entropie als een nieuw signaal in visuele token-generatie en opereert op twee complementaire schaalniveaus: (i) Profielniveau, dat een gekalibreerde vertrouwensstatus streamt door intrinsieke en conditionele signalen te combineren; en (ii) Beleidsniveau, dat deze status gebruikt om trajecten met een laag vertrouwen adaptief te beëindigen en dynamisch begeleiding in te plannen voor fasegeschikte conditioneringssterkte. Experimenten op zowel algemene als compositorische benchmarks tonen aan dat ScalingAR (1) basismodellen verbetert met 12,5% op GenEval en 15,2% op TIIF-Bench, (2) het visuele tokenverbruik efficiënt vermindert met 62,0% terwijl het de baselineprestaties overtreft, en (3) robuustheid succesvol versterkt, waardoor prestatieverliezen met 26,0% worden verminderd in uitdagende scenario's.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing large language models, yet its application to next-token prediction (NTP) autoregressive (AR) image generation remains largely uncharted. Existing TTS approaches for visual AR (VAR), which rely on frequent partial decoding and external reward models, are ill-suited for NTP-based image generation due to the inherent incompleteness of intermediate decoding results. To bridge this gap, we introduce ScalingAR, the first TTS framework specifically designed for NTP-based AR image generation that eliminates the need for early decoding or auxiliary rewards. ScalingAR leverages token entropy as a novel signal in visual token generation and operates at two complementary scaling levels: (i) Profile Level, which streams a calibrated confidence state by fusing intrinsic and conditional signals; and (ii) Policy Level, which utilizes this state to adaptively terminate low-confidence trajectories and dynamically schedule guidance for phase-appropriate conditioning strength. Experiments on both general and compositional benchmarks show that ScalingAR (1) improves base models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces visual token consumption by 62.0% while outperforming baselines, and (3) successfully enhances robustness, mitigating performance drops by 26.0% in challenging scenarios.
PDF82October 3, 2025