이미지 생성을 위한 다중 스케일 지역 추론 디코딩
Multi-Scale Local Speculative Decoding for Image Generation
January 8, 2026
저자: Elia Peruzzo, Guillaume Sautière, Amirhossein Habibian
cs.AI
초록
자기회귀(AR) 모델은 이미지 합성에서 뛰어난 성공을 거두었지만, 순차적 특성으로 인해 심각한 지연 시간 제약이 따릅니다. 스페큘레이티브 디코딩은 가속화를 위한 유망한 방안을 제시하지만, 기존 접근법은 토큰 수준의 모호성과 공간 인식 부재로 인해 한계가 있습니다. 본 연구에서는 AR 이미지 생성을 가속화하기 위해 다중 해상도 초안 생성과 공간 정보 기반 검증을 결합한 새로운 프레임워크인 다중 규모 지역 스페큘레이션 디코딩(MuLo-SD)을 소개합니다. 우리의 방법은 학습된 업샘플러와 결합된 저해상도 초안 생성기를 활용하여 후보 이미지 토큰을 제안하며, 이들은 이후 고해상도 대상 모델에 의해 병렬로 검증됩니다. 중요한 점은 첫 번째 거부 후 레스터 스캔 방식으로 재샘플링하는 대신 공간 이웃 영역에 초점을 맞춤으로써 초안 오류를 효율적으로 수정할 수 있는 지역적 거부 및 재샘플링 메커니즘을 도입했다는 것입니다. 우리는 MuLo-SD가 최대 1.7배의 상당한 속도 향상을 달성하며, 가속화 측면에서 EAGLE-2 및 LANTERN과 같은 강력한 스페큘레이션 디코딩 베이스라인을 능가하는 동시에 유사한 의미론적 정렬과 지각적 품질을 유지함을 입증합니다. 이러한 결과는 MS-COCO 5k 검증 분할에 대해 GenEval, DPG-Bench 및 FID/HPSv2를 사용하여 검증되었습니다. 광범위한 애블레이션 연구를 통해 업샘플링 설계, 확률 풀링, 그리고 이웃 확장을 통한 지역적 거부 및 재샘플링의 영향이 부각됩니다. 우리의 접근 방식은 효율성과 정확도 간의 격차를 해소하며 이미지 합성을 위한 스페큘레이션 디코딩 분야에서 새로운 최첨단 기술을 제시합니다.
English
Autoregressive (AR) models have achieved remarkable success in image synthesis, yet their sequential nature imposes significant latency constraints. Speculative Decoding offers a promising avenue for acceleration, but existing approaches are limited by token-level ambiguity and lack of spatial awareness. In this work, we introduce Multi-Scale Local Speculative Decoding (MuLo-SD), a novel framework that combines multi-resolution drafting with spatially informed verification to accelerate AR image generation. Our method leverages a low-resolution drafter paired with learned up-samplers to propose candidate image tokens, which are then verified in parallel by a high-resolution target model. Crucially, we incorporate a local rejection and resampling mechanism, enabling efficient correction of draft errors by focusing on spatial neighborhoods rather than raster-scan resampling after the first rejection. We demonstrate that MuLo-SD achieves substantial speedups - up to 1.7times - outperforming strong speculative decoding baselines such as EAGLE-2 and LANTERN in terms of acceleration, while maintaining comparable semantic alignment and perceptual quality. These results are validated using GenEval, DPG-Bench, and FID/HPSv2 on the MS-COCO 5k validation split. Extensive ablations highlight the impact of up-sampling design, probability pooling, and local rejection and resampling with neighborhood expansion. Our approach sets a new state-of-the-art in speculative decoding for image synthesis, bridging the gap between efficiency and fidelity.