Confía en tu Instinto: Escalando la Confianza para la Generación Autoregresiva de Imágenes
Go with Your Gut: Scaling Confidence for Autoregressive Image Generation
September 30, 2025
Autores: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI
Resumen
El escalado en tiempo de prueba (TTS, por sus siglas en inglés) ha demostrado un éxito notable en la mejora de modelos de lenguaje grandes, sin embargo, su aplicación a la generación autoregresiva (AR) de imágenes basada en predicción del siguiente token (NTP) sigue siendo en gran parte inexplorada. Los enfoques existentes de TTS para AR visual (VAR), que dependen de decodificaciones parciales frecuentes y modelos de recompensa externos, son inadecuados para la generación de imágenes basada en NTP debido a la incompletitud inherente de los resultados de decodificación intermedios. Para cerrar esta brecha, presentamos ScalingAR, el primer marco de TTS diseñado específicamente para la generación de imágenes AR basada en NTP que elimina la necesidad de decodificación temprana o recompensas auxiliares. ScalingAR aprovecha la entropía de los tokens como una señal novedosa en la generación de tokens visuales y opera en dos niveles de escalado complementarios: (i) Nivel de Perfil, que transmite un estado de confianza calibrado fusionando señales intrínsecas y condicionales; y (ii) Nivel de Política, que utiliza este estado para terminar adaptativamente trayectorias de baja confianza y programar dinámicamente la guía para una fuerza de condicionamiento apropiada a la fase. Los experimentos en benchmarks generales y de composición muestran que ScalingAR (1) mejora los modelos base en un 12.5% en GenEval y un 15.2% en TIIF-Bench, (2) reduce eficientemente el consumo de tokens visuales en un 62.0% mientras supera a los baselines, y (3) mejora con éxito la robustez, mitigando las caídas de rendimiento en un 26.0% en escenarios desafiantes.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing
large language models, yet its application to next-token prediction (NTP)
autoregressive (AR) image generation remains largely uncharted. Existing TTS
approaches for visual AR (VAR), which rely on frequent partial decoding and
external reward models, are ill-suited for NTP-based image generation due to
the inherent incompleteness of intermediate decoding results. To bridge this
gap, we introduce ScalingAR, the first TTS framework specifically designed for
NTP-based AR image generation that eliminates the need for early decoding or
auxiliary rewards. ScalingAR leverages token entropy as a novel signal in
visual token generation and operates at two complementary scaling levels: (i)
Profile Level, which streams a calibrated confidence state by fusing intrinsic
and conditional signals; and (ii) Policy Level, which utilizes this state to
adaptively terminate low-confidence trajectories and dynamically schedule
guidance for phase-appropriate conditioning strength. Experiments on both
general and compositional benchmarks show that ScalingAR (1) improves base
models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces
visual token consumption by 62.0% while outperforming baselines, and (3)
successfully enhances robustness, mitigating performance drops by 26.0% in
challenging scenarios.