Decodificação Destilada 2: Amostragem em Um Passo de Modelos Autorregressivos de Imagem com Destilação Condicional de Pontuação
Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
October 23, 2025
Autores: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI
Resumo
Os modelos autorregressivos (AR) de imagem emergiram como um paradigma poderoso de modelos generativos visuais. Apesar do seu desempenho promissor, eles sofrem com uma velocidade de geração lenta devido ao grande número de etapas de amostragem necessárias. Embora o *Distilled Decoding 1* (DD1) tenha sido proposto recentemente para permitir amostragem com poucas etapas para modelos AR de imagem, ele ainda incorre em uma degradação significativa de desempenho na configuração de uma única etapa e depende de um mapeamento predefinido que limita sua flexibilidade. Neste trabalho, propomos um novo método, o *Distilled Decoding 2* (DD2), para avançar ainda mais a viabilidade da amostragem em uma única etapa para modelos AR de imagem. Diferente do DD1, o DD2 não depende de um mapeamento predefinido. Nós enxergamos o modelo AR original como um modelo professor que fornece o *score* condicional verdadeiro no espaço latente de incorporação em cada posição do *token*. Com base nisso, propomos uma nova função de perda por destilação de *score* condicional para treinar um gerador de uma etapa. Especificamente, treinamos uma rede separada para prever o *score* condicional da distribuição gerada e aplicamos a destilação de *score* em cada posição de *token* condicionada aos *tokens* anteriores. Resultados experimentais mostram que o DD2 permite a amostragem em uma única etapa para modelos AR de imagem com um aumento mínimo do FID de 3.40 para 5.43 no ImageNet-256. Comparado ao *baseline* mais forte, o DD1, o DD2 reduz a diferença entre a amostragem de uma etapa e o modelo AR original em 67%, com um aceleramento de treinamento de até 12.3 vezes simultaneamente. O DD2 dá um passo significativo em direção ao objetivo da geração AR em uma etapa, abrindo novas possibilidades para a modelagem AR rápida e de alta qualidade. O código está disponível em https://github.com/imagination-research/Distilled-Decoding-2.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of
visual generative models. Despite their promising performance, they suffer from
slow generation speed due to the large number of sampling steps required.
Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step
sampling for image AR models, it still incurs significant performance
degradation in the one-step setting, and relies on a pre-defined mapping that
limits its flexibility. In this work, we propose a new method, Distilled
Decoding 2 (DD2), to further advances the feasibility of one-step sampling for
image AR models. Unlike DD1, DD2 does not without rely on a pre-defined
mapping. We view the original AR model as a teacher model which provides the
ground truth conditional score in the latent embedding space at each token
position. Based on this, we propose a novel conditional score
distillation loss to train a one-step generator. Specifically, we train a
separate network to predict the conditional score of the generated distribution
and apply score distillation at every token position conditioned on previous
tokens. Experimental results show that DD2 enables one-step sampling for image
AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256.
Compared to the strongest baseline DD1, DD2 reduces the gap between the
one-step sampling and original AR model by 67%, with up to 12.3times
training speed-up simultaneously. DD2 takes a significant step toward the goal
of one-step AR generation, opening up new possibilities for fast and
high-quality AR modeling. Code is available at
https://github.com/imagination-research/Distilled-Decoding-2.