Distilled Decoding 2 : Échantillonnage en une étape des modèles auto-régressifs d'images par distillation de score conditionnel
Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
October 23, 2025
papers.authors: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI
papers.abstract
Les modèles autorégressifs (AR) d'images sont devenus un paradigme puissant pour les modèles génératifs visuels. Malgré leurs performances prometteuses, leur vitesse de génération reste lente en raison du grand nombre d'étapes d'échantillonnage requis. Bien que le décodage distillé 1 (DD1) ait été récemment proposé pour permettre un échantillonnage en peu d'étapes pour les modèles AR d'images, il subit encore une dégradation significative des performances dans le cadre d'un échantillonnage en une étape, et repose sur une correspondance prédéfinie qui limite sa flexibilité. Dans ce travail, nous proposons une nouvelle méthode, le décodage distillé 2 (DD2), pour faire progresser la faisabilité de l'échantillonnage en une étape pour les modèles AR d'images. Contrairement à DD1, DD2 ne repose pas sur une correspondance prédéfinie. Nous considérons le modèle AR original comme un modèle enseignant qui fournit le score conditionnel de référence dans l'espace latent d'embedding à chaque position de token. Sur cette base, nous proposons une nouvelle fonction de perte de distillation de score conditionnel pour entraîner un générateur en une étape. Plus précisément, nous entraînons un réseau séparé pour prédire le score conditionnel de la distribution générée et appliquons la distillation du score à chaque position de token conditionnée par les tokens précédents. Les résultats expérimentaux montrent que DD2 permet un échantillonnage en une étape pour les modèles AR d'images avec une augmentation minimale de l'FID de 3,40 à 5,43 sur ImageNet-256. Par rapport à la base de référence la plus forte, DD1, DD2 réduit l'écart entre l'échantillonnage en une étape et le modèle AR original de 67 %, avec une accélération de l'entraînement allant jusqu'à 12,3 fois simultanément. DD2 représente une avancée significative vers l'objectif de génération AR en une étape, ouvrant de nouvelles possibilités pour une modélisation AR rapide et de haute qualité. Le code est disponible à l'adresse https://github.com/imagination-research/Distilled-Decoding-2.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of
visual generative models. Despite their promising performance, they suffer from
slow generation speed due to the large number of sampling steps required.
Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step
sampling for image AR models, it still incurs significant performance
degradation in the one-step setting, and relies on a pre-defined mapping that
limits its flexibility. In this work, we propose a new method, Distilled
Decoding 2 (DD2), to further advances the feasibility of one-step sampling for
image AR models. Unlike DD1, DD2 does not without rely on a pre-defined
mapping. We view the original AR model as a teacher model which provides the
ground truth conditional score in the latent embedding space at each token
position. Based on this, we propose a novel conditional score
distillation loss to train a one-step generator. Specifically, we train a
separate network to predict the conditional score of the generated distribution
and apply score distillation at every token position conditioned on previous
tokens. Experimental results show that DD2 enables one-step sampling for image
AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256.
Compared to the strongest baseline DD1, DD2 reduces the gap between the
one-step sampling and original AR model by 67%, with up to 12.3times
training speed-up simultaneously. DD2 takes a significant step toward the goal
of one-step AR generation, opening up new possibilities for fast and
high-quality AR modeling. Code is available at
https://github.com/imagination-research/Distilled-Decoding-2.