ChatPaper.aiChatPaper

직감을 따르라: 자기회귀적 이미지 생성을 위한 신뢰도 확장

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

September 30, 2025
저자: Harold Haodong Chen, Xianfeng Wu, Wen-Jie Shu, Rongjin Guo, Disen Lan, Harry Yang, Ying-Cong Chen
cs.AI

초록

테스트 타임 스케일링(TTS)은 대규모 언어 모델의 성능을 향상시키는 데 있어 놀라운 성공을 거두었지만, 다음 토큰 예측(NTP) 기반의 자기회귀적(AR) 이미지 생성에 대한 적용은 아직까지 거의 탐구되지 않았습니다. 기존의 시각적 자기회귀(VAR)를 위한 TTS 접근법들은 빈번한 부분 디코딩과 외부 보상 모델에 의존하기 때문에, 중간 디코딩 결과의 본질적인 불완전성으로 인해 NTP 기반 이미지 생성에는 적합하지 않습니다. 이러한 격차를 해소하기 위해, 우리는 초기 디코딩이나 보조 보상 없이도 NTP 기반 AR 이미지 생성을 위해 특별히 설계된 첫 번째 TTS 프레임워크인 ScalingAR을 소개합니다. ScalingAR은 시각적 토큰 생성에서 토큰 엔트로피를 새로운 신호로 활용하며, 두 가지 상호 보완적인 스케일링 수준에서 작동합니다: (i) 프로파일 수준에서는 내재적 신호와 조건적 신호를 융합하여 보정된 신뢰 상태를 스트리밍하고, (ii) 정책 수준에서는 이 상태를 활용하여 낮은 신뢰도의 궤적을 적응적으로 종료하고 단계에 적합한 조건 강도를 동적으로 스케줄링합니다. 일반 및 구성적 벤치마크에서의 실험 결과, ScalingAR은 (1) GenEval에서 기본 모델을 12.5%, TIIF-Bench에서 15.2% 향상시키고, (2) 시각적 토큰 소비를 62.0% 효율적으로 줄이면서도 기준 모델을 능가하며, (3) 견고성을 강화하여 도전적인 시나리오에서 성능 저하를 26.0% 완화하는 데 성공했습니다.
English
Test-time scaling (TTS) has demonstrated remarkable success in enhancing large language models, yet its application to next-token prediction (NTP) autoregressive (AR) image generation remains largely uncharted. Existing TTS approaches for visual AR (VAR), which rely on frequent partial decoding and external reward models, are ill-suited for NTP-based image generation due to the inherent incompleteness of intermediate decoding results. To bridge this gap, we introduce ScalingAR, the first TTS framework specifically designed for NTP-based AR image generation that eliminates the need for early decoding or auxiliary rewards. ScalingAR leverages token entropy as a novel signal in visual token generation and operates at two complementary scaling levels: (i) Profile Level, which streams a calibrated confidence state by fusing intrinsic and conditional signals; and (ii) Policy Level, which utilizes this state to adaptively terminate low-confidence trajectories and dynamically schedule guidance for phase-appropriate conditioning strength. Experiments on both general and compositional benchmarks show that ScalingAR (1) improves base models by 12.5% on GenEval and 15.2% on TIIF-Bench, (2) efficiently reduces visual token consumption by 62.0% while outperforming baselines, and (3) successfully enhances robustness, mitigating performance drops by 26.0% in challenging scenarios.
PDF82October 3, 2025