ChatPaper.aiChatPaper

자코비-노이즈 제거 추론 기반 디코딩을 통한 자기회귀적 텍스트-이미지 생성 가속화

Speculative Jacobi-Denoising Decoding for Accelerating Autoregressive Text-to-image Generation

October 10, 2025
저자: Yao Teng, Fuyun Wang, Xian Liu, Zhekai Chen, Han Shi, Yu Wang, Zhenguo Li, Weiyang Liu, Difan Zou, Xihui Liu
cs.AI

초록

시각적 콘텐츠 생성의 새로운 패러다임으로서, 자동회귀적 텍스트-이미지 모델은 순차적인 토큰 단위 디코딩 프로세스로 인해 느린 추론 속도를 겪으며, 단일 이미지를 생성하기 위해 수천 번의 모델 순전파가 필요한 경우가 많습니다. 이러한 비효율성을 해결하기 위해, 우리는 Speculative Jacobi-Denoising Decoding(SJD2) 프레임워크를 제안합니다. 이 프레임워크는 자동회귀 모델에서 병렬 토큰 생성을 가능하게 하기 위해 제노이징 프로세스를 야코비 반복에 통합합니다. 우리의 방법은 사전 훈련된 자동회귀 모델이 노이즈가 섞인 토큰 임베딩을 수용하고 저비용 미세 조정을 통해 다음 클린 토큰을 예측할 수 있도록 하는 next-clean-token 예측 패러다임을 도입합니다. 이 제노이징 패러다임은 모델이 더 안정적인 야코비 궤적을 따르도록 유도합니다. 추론 과정에서, 우리의 방법은 토큰 시퀀스를 가우시안 노이즈로 초기화하고 임베딩 공간에서 반복적인 next-clean-token 예측을 수행합니다. 우리는 확률적 기준을 사용하여 여러 토큰을 병렬로 검증 및 수락하고, 제노이징 궤적을 통해 수락되지 않은 토큰을 다음 반복을 위해 개선합니다. 실험 결과, 우리의 방법은 모델 순전파 횟수를 줄이면서도 생성된 이미지의 시각적 품질을 유지하며 생성 속도를 가속화할 수 있음을 보여줍니다.
English
As a new paradigm of visual content generation, autoregressive text-to-image models suffer from slow inference due to their sequential token-by-token decoding process, often requiring thousands of model forward passes to generate a single image. To address this inefficiency, we propose Speculative Jacobi-Denoising Decoding (SJD2), a framework that incorporates the denoising process into Jacobi iterations to enable parallel token generation in autoregressive models. Our method introduces a next-clean-token prediction paradigm that enables the pre-trained autoregressive models to accept noise-perturbed token embeddings and predict the next clean tokens through low-cost fine-tuning. This denoising paradigm guides the model towards more stable Jacobi trajectories. During inference, our method initializes token sequences with Gaussian noise and performs iterative next-clean-token-prediction in the embedding space. We employ a probabilistic criterion to verify and accept multiple tokens in parallel, and refine the unaccepted tokens for the next iteration with the denoising trajectory. Experiments show that our method can accelerate generation by reducing model forward passes while maintaining the visual quality of generated images.
PDF32October 13, 2025