ChatPaper.aiChatPaper

증류 디코딩 2: 조건부 점수 증류를 이용한 이미지 자기회귀 모델의 단일 단계 샘플링

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

October 23, 2025
저자: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI

초록

이미지 자기회귀(AR) 모델은 강력한 시각 생성 모델 패러다임으로 부상했습니다. 그러나 이러한 모델은 많은 수의 샘플링 단계가 필요하여 생성 속도가 느리다는 단점이 있습니다. 최근 이미지 AR 모델을 위한 적은 단계 샘플링을 가능하게 하는 Distilled Decoding 1(DD1)이 제안되었지만, 1-단계 설정에서는 여전히 상당한 성능 저하가 발생하며 사전 정의된 매핑에 의존하여 유연성이 제한됩니다. 본 연구에서는 이미지 AR 모델의 1-단계 샘플링 실현 가능성을 더욱 발전시키는 새로운 방법인 Distilled Decoding 2(DD2)를 제안합니다. DD1과 달리 DD2는 사전 정의된 매핑에 의존하지 않습니다. 우리는 원본 AR 모델을 각 토큰 위치에서 잠재 임베딩 공간의 실제 조건부 점수를 제공하는 교사 모델로 간주합니다. 이를 바탕으로 1-단계 생성기를 훈련시키기 위한 새로운 조건부 점수 증류 손실을 제안합니다. 구체적으로, 생성된 분포의 조건부 점수를 예측하기 위해 별도의 네트워크를 훈련시키고, 이전 토큰들을 조건으로 모든 토큰 위치에서 점수 증류를 적용합니다. 실험 결과에 따르면 DD2는 ImageNet-256에서 FID가 3.40에서 5.43으로 최소한으로 증가하면서 이미지 AR 모델의 1-단계 샘플링을 가능하게 합니다. 가장 강력한 기준 방법인 DD1과 비교했을 때, DD2는 1-단계 샘플링과 원본 AR 모델 간의 성능 격차를 67% 줄이면서 동시에 최대 12.3배의 훈련 속도 향상을 보였습니다. DD2는 1-단계 AR 생성을 목표로 한 중요한 진전을 이루며, 빠르고 고품질의 AR 모델링을 위한 새로운 가능성을 열어줍니다. 코드는 https://github.com/imagination-research/Distilled-Decoding-2에서 확인할 수 있습니다.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of visual generative models. Despite their promising performance, they suffer from slow generation speed due to the large number of sampling steps required. Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step sampling for image AR models, it still incurs significant performance degradation in the one-step setting, and relies on a pre-defined mapping that limits its flexibility. In this work, we propose a new method, Distilled Decoding 2 (DD2), to further advances the feasibility of one-step sampling for image AR models. Unlike DD1, DD2 does not without rely on a pre-defined mapping. We view the original AR model as a teacher model which provides the ground truth conditional score in the latent embedding space at each token position. Based on this, we propose a novel conditional score distillation loss to train a one-step generator. Specifically, we train a separate network to predict the conditional score of the generated distribution and apply score distillation at every token position conditioned on previous tokens. Experimental results show that DD2 enables one-step sampling for image AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256. Compared to the strongest baseline DD1, DD2 reduces the gap between the one-step sampling and original AR model by 67%, with up to 12.3times training speed-up simultaneously. DD2 takes a significant step toward the goal of one-step AR generation, opening up new possibilities for fast and high-quality AR modeling. Code is available at https://github.com/imagination-research/Distilled-Decoding-2.
PDF72December 31, 2025