Доверяй интуиции: масштабирование уверенности в авторегрессионной генерации изображений
Go with Your Gut: Scaling Confidence for Autoregressive Image Generation
September 30, 2025
Авторы: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI
Аннотация
Масштабирование во время тестирования (TTS) продемонстрировало впечатляющий успех в улучшении больших языковых моделей, однако его применение к авторегрессивной (AR) генерации изображений на основе предсказания следующего токена (NTP) остается практически неисследованным. Существующие подходы TTS для визуальной AR (VAR), которые полагаются на частое частичное декодирование и внешние модели вознаграждения, плохо подходят для генерации изображений на основе NTP из-за присущей неполноты промежуточных результатов декодирования. Чтобы устранить этот пробел, мы представляем ScalingAR — первую TTS-структуру, специально разработанную для AR-генерации изображений на основе NTP, которая устраняет необходимость раннего декодирования или вспомогательных вознаграждений. ScalingAR использует энтропию токенов как новый сигнал в генерации визуальных токенов и работает на двух взаимодополняющих уровнях масштабирования: (i) на уровне профиля, который передает калиброванное состояние уверенности путем объединения внутренних и условных сигналов; и (ii) на уровне политики, который использует это состояние для адаптивного завершения траекторий с низкой уверенностью и динамического планирования управления для фазово-соответствующей силы кондиционирования. Эксперименты на общих и композиционных тестах показывают, что ScalingAR (1) улучшает базовые модели на 12,5% на GenEval и на 15,2% на TIIF-Bench, (2) эффективно сокращает потребление визуальных токенов на 62,0%, превосходя базовые методы, и (3) успешно повышает устойчивость, смягчая снижение производительности на 26,0% в сложных сценариях.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing
large language models, yet its application to next-token prediction (NTP)
autoregressive (AR) image generation remains largely uncharted. Existing TTS
approaches for visual AR (VAR), which rely on frequent partial decoding and
external reward models, are ill-suited for NTP-based image generation due to
the inherent incompleteness of intermediate decoding results. To bridge this
gap, we introduce ScalingAR, the first TTS framework specifically designed for
NTP-based AR image generation that eliminates the need for early decoding or
auxiliary rewards. ScalingAR leverages token entropy as a novel signal in
visual token generation and operates at two complementary scaling levels: (i)
Profile Level, which streams a calibrated confidence state by fusing intrinsic
and conditional signals; and (ii) Policy Level, which utilizes this state to
adaptively terminate low-confidence trajectories and dynamically schedule
guidance for phase-appropriate conditioning strength. Experiments on both
general and compositional benchmarks show that ScalingAR (1) improves base
models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces
visual token consumption by 62.0% while outperforming baselines, and (3)
successfully enhances robustness, mitigating performance drops by 26.0% in
challenging scenarios.