Decodificación Destilada 2: Muestreo en un Paso de Modelos Autoregresivos de Imágenes con Destilación Condicional de Puntuaciones

Resumen

Los modelos autorregresivos (AR) de imágenes han surgido como un paradigma poderoso dentro de los modelos generativos visuales. A pesar de su rendimiento prometedor, adolecen de una velocidad de generación lenta debido al gran número de pasos de muestreo requeridos. Aunque recientemente se propuso Decodificación Distilada 1 (DD1) para permitir el muestreo en pocos pasos para modelos AR de imágenes, este método aún incurre en una degradación significativa del rendimiento en el entorno de un solo paso y depende de un mapeo predefinido que limita su flexibilidad. En este trabajo, proponemos un nuevo método, Decodificación Distilada 2 (DD2), para avanzar aún más en la viabilidad del muestreo en un solo paso para modelos AR de imágenes. A diferencia de DD1, DD2 no depende de un mapeo predefinido. Consideramos el modelo AR original como un modelo profesor que proporciona la puntuación condicional verdadera en el espacio latente de embeddings en cada posición de token. Basándonos en esto, proponemos una nueva función de pérdida por destilación de puntuación condicional para entrenar un generador de un solo paso. Específicamente, entrenamos una red separada para predecir la puntuación condicional de la distribución generada y aplicamos la destilación de puntuación en cada posición de token condicionada a los tokens anteriores. Los resultados experimentales muestran que DD2 permite el muestreo en un solo paso para modelos AR de imágenes con un aumento mínimo del FID desde 3.40 hasta 5.43 en ImageNet-256. En comparación con el baseline más fuerte, DD1, DD2 reduce la brecha entre el muestreo en un solo paso y el modelo AR original en un 67%, logrando simultáneamente una aceleración del entrenamiento de hasta 12.3 veces. DD2 representa un paso significativo hacia el objetivo de la generación AR en un solo paso, abriendo nuevas posibilidades para el modelado AR rápido y de alta calidad. El código está disponible en https://github.com/imagination-research/Distilled-Decoding-2.

English

Image Auto-regressive (AR) models have emerged as a powerful paradigm of visual generative models. Despite their promising performance, they suffer from slow generation speed due to the large number of sampling steps required. Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step sampling for image AR models, it still incurs significant performance degradation in the one-step setting, and relies on a pre-defined mapping that limits its flexibility. In this work, we propose a new method, Distilled Decoding 2 (DD2), to further advances the feasibility of one-step sampling for image AR models. Unlike DD1, DD2 does not without rely on a pre-defined mapping. We view the original AR model as a teacher model which provides the ground truth conditional score in the latent embedding space at each token position. Based on this, we propose a novel conditional score distillation loss to train a one-step generator. Specifically, we train a separate network to predict the conditional score of the generated distribution and apply score distillation at every token position conditioned on previous tokens. Experimental results show that DD2 enables one-step sampling for image AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256. Compared to the strongest baseline DD1, DD2 reduces the gap between the one-step sampling and original AR model by 67%, with up to 12.3times training speed-up simultaneously. DD2 takes a significant step toward the goal of one-step AR generation, opening up new possibilities for fast and high-quality AR modeling. Code is available at https://github.com/imagination-research/Distilled-Decoding-2.

Decodificación Destilada 2: Muestreo en un Paso de Modelos Autoregresivos de Imágenes con Destilación Condicional de Puntuaciones

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

Resumen

Support