ChatPaper.aiChatPaper

효율적인 자기회귀적 이미지 생성을 위한 지역성 인식 병렬 디코딩

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

July 2, 2025
저자: Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han
cs.AI

초록

우리는 자기회귀적 이미지 생성을 가속화하기 위해 Locality-aware Parallel Decoding(LPD)를 제안한다. 전통적인 자기회귀적 이미지 생성은 메모리 제약이 심한 다음 패치 예측에 의존하며, 이는 높은 지연 시간을 초래한다. 기존 연구들은 다중 패치 예측으로 전환하여 다음 패치 예측을 병렬화하려 시도했지만, 제한된 병렬화만 달성했다. 높은 병렬화를 달성하면서도 생성 품질을 유지하기 위해, 우리는 두 가지 핵심 기술을 도입했다: (1) Flexible Parallelized Autoregressive Modeling은 임의의 생성 순서와 병렬화 정도를 가능하게 하는 새로운 아키텍처이다. 이는 학습 가능한 위치 쿼리 토큰을 사용하여 목표 위치에서의 생성을 안내하면서, 동시에 생성되는 토큰 간의 상호 가시성을 보장하여 일관된 병렬 디코딩을 가능하게 한다. (2) Locality-aware Generation Ordering은 그룹 내 의존성을 최소화하고 문맥적 지원을 극대화하여 생성 품질을 향상시키는 새로운 스케줄링 방법이다. 이러한 설계를 통해, ImageNet 클래스 조건부 생성에서 256×256 해상도에서는 생성 단계를 256에서 20으로, 512×512 해상도에서는 1024에서 48로 줄이면서도 품질을 저하시키지 않았으며, 이전의 병렬화된 자기회귀 모델 대비 최소 3.4배 낮은 지연 시간을 달성했다.
English
We present Locality-aware Parallel Decoding (LPD) to accelerate autoregressive image generation. Traditional autoregressive image generation relies on next-patch prediction, a memory-bound process that leads to high latency. Existing works have tried to parallelize next-patch prediction by shifting to multi-patch prediction to accelerate the process, but only achieved limited parallelization. To achieve high parallelization while maintaining generation quality, we introduce two key techniques: (1) Flexible Parallelized Autoregressive Modeling, a novel architecture that enables arbitrary generation ordering and degrees of parallelization. It uses learnable position query tokens to guide generation at target positions while ensuring mutual visibility among concurrently generated tokens for consistent parallel decoding. (2) Locality-aware Generation Ordering, a novel schedule that forms groups to minimize intra-group dependencies and maximize contextual support, enhancing generation quality. With these designs, we reduce the generation steps from 256 to 20 (256times256 res.) and 1024 to 48 (512times512 res.) without compromising quality on the ImageNet class-conditional generation, and achieving at least 3.4times lower latency than previous parallelized autoregressive models.
PDF111July 3, 2025