Decodificación Destilada 2: Muestreo en un Paso de Modelos Autoregresivos de Imágenes con Destilación Condicional de Puntuaciones
Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
October 23, 2025
Autores: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI
Resumen
Los modelos autorregresivos (AR) de imágenes han surgido como un paradigma poderoso dentro de los modelos generativos visuales. A pesar de su rendimiento prometedor, adolecen de una velocidad de generación lenta debido al gran número de pasos de muestreo requeridos. Aunque recientemente se propuso Decodificación Distilada 1 (DD1) para permitir el muestreo en pocos pasos para modelos AR de imágenes, este método aún incurre en una degradación significativa del rendimiento en el entorno de un solo paso y depende de un mapeo predefinido que limita su flexibilidad. En este trabajo, proponemos un nuevo método, Decodificación Distilada 2 (DD2), para avanzar aún más en la viabilidad del muestreo en un solo paso para modelos AR de imágenes. A diferencia de DD1, DD2 no depende de un mapeo predefinido. Consideramos el modelo AR original como un modelo profesor que proporciona la puntuación condicional verdadera en el espacio latente de embeddings en cada posición de token. Basándonos en esto, proponemos una nueva función de pérdida por destilación de puntuación condicional para entrenar un generador de un solo paso. Específicamente, entrenamos una red separada para predecir la puntuación condicional de la distribución generada y aplicamos la destilación de puntuación en cada posición de token condicionada a los tokens anteriores. Los resultados experimentales muestran que DD2 permite el muestreo en un solo paso para modelos AR de imágenes con un aumento mínimo del FID desde 3.40 hasta 5.43 en ImageNet-256. En comparación con el baseline más fuerte, DD1, DD2 reduce la brecha entre el muestreo en un solo paso y el modelo AR original en un 67%, logrando simultáneamente una aceleración del entrenamiento de hasta 12.3 veces. DD2 representa un paso significativo hacia el objetivo de la generación AR en un solo paso, abriendo nuevas posibilidades para el modelado AR rápido y de alta calidad. El código está disponible en https://github.com/imagination-research/Distilled-Decoding-2.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of
visual generative models. Despite their promising performance, they suffer from
slow generation speed due to the large number of sampling steps required.
Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step
sampling for image AR models, it still incurs significant performance
degradation in the one-step setting, and relies on a pre-defined mapping that
limits its flexibility. In this work, we propose a new method, Distilled
Decoding 2 (DD2), to further advances the feasibility of one-step sampling for
image AR models. Unlike DD1, DD2 does not without rely on a pre-defined
mapping. We view the original AR model as a teacher model which provides the
ground truth conditional score in the latent embedding space at each token
position. Based on this, we propose a novel conditional score
distillation loss to train a one-step generator. Specifically, we train a
separate network to predict the conditional score of the generated distribution
and apply score distillation at every token position conditioned on previous
tokens. Experimental results show that DD2 enables one-step sampling for image
AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256.
Compared to the strongest baseline DD1, DD2 reduces the gap between the
one-step sampling and original AR model by 67%, with up to 12.3times
training speed-up simultaneously. DD2 takes a significant step toward the goal
of one-step AR generation, opening up new possibilities for fast and
high-quality AR modeling. Code is available at
https://github.com/imagination-research/Distilled-Decoding-2.