ChatPaper.aiChatPaper

Siga sua Intuição: Escalando a Confiança para Geração Autoregressiva de Imagens

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

September 30, 2025
Autores: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI

Resumo

O escalonamento em tempo de teste (TTS) tem demonstrado um sucesso notável na melhoria de grandes modelos de linguagem, mas sua aplicação na geração autoregressiva (AR) de imagens com previsão do próximo token (NTP) permanece amplamente inexplorada. As abordagens existentes de TTS para AR visual (VAR), que dependem de decodificação parcial frequente e modelos de recompensa externos, são inadequadas para a geração de imagens baseada em NTP devido à incompletude inerente dos resultados intermediários de decodificação. Para preencher essa lacuna, introduzimos o ScalingAR, o primeiro framework TTS projetado especificamente para a geração de imagens AR baseada em NTP que elimina a necessidade de decodificação precoce ou recompensas auxiliares. O ScalingAR utiliza a entropia do token como um sinal novo na geração de tokens visuais e opera em dois níveis complementares de escalonamento: (i) Nível de Perfil, que transmite um estado de confiança calibrado ao fundir sinais intrínsecos e condicionais; e (ii) Nível de Política, que utiliza esse estado para terminar adaptativamente trajetórias de baixa confiança e agendar dinamicamente a orientação para a força de condicionamento apropriada à fase. Experimentos em benchmarks gerais e composicionais mostram que o ScalingAR (1) melhora os modelos base em 12,5% no GenEval e 15,2% no TIIF-Bench, (2) reduz eficientemente o consumo de tokens visuais em 62,0% enquanto supera as baselines, e (3) aumenta com sucesso a robustez, mitigando quedas de desempenho em 26,0% em cenários desafiadores.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing large language models, yet its application to next-token prediction (NTP) autoregressive (AR) image generation remains largely uncharted. Existing TTS approaches for visual AR (VAR), which rely on frequent partial decoding and external reward models, are ill-suited for NTP-based image generation due to the inherent incompleteness of intermediate decoding results. To bridge this gap, we introduce ScalingAR, the first TTS framework specifically designed for NTP-based AR image generation that eliminates the need for early decoding or auxiliary rewards. ScalingAR leverages token entropy as a novel signal in visual token generation and operates at two complementary scaling levels: (i) Profile Level, which streams a calibrated confidence state by fusing intrinsic and conditional signals; and (ii) Policy Level, which utilizes this state to adaptively terminate low-confidence trajectories and dynamically schedule guidance for phase-appropriate conditioning strength. Experiments on both general and compositional benchmarks show that ScalingAR (1) improves base models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces visual token consumption by 62.0% while outperforming baselines, and (3) successfully enhances robustness, mitigating performance drops by 26.0% in challenging scenarios.
PDF82October 3, 2025