ChatPaper.aiChatPaper

Distilled Decoding 2: Campionatura in un Passo di Modelli Auto-regressivi per Immagini con Distillazione Condizionata del Punteggio

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

October 23, 2025
Autori: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI

Abstract

I modelli auto-regressivi (AR) per immagini sono emersi come un potente paradigma per i modelli generativi visivi. Nonostante le prestazioni promettenti, soffrono di una velocità di generazione lenta a causa del gran numero di passaggi di campionamento richiesti. Sebbene il Decodificatore Distillato 1 (DD1) sia stato recentemente proposto per consentire un campionamento in pochi passaggi per i modelli AR di immagini, comporta comunque un significativo degrado delle prestazioni nell'impostazione a singolo passaggio e si basa su una mappatura predefinita che ne limita la flessibilità. In questo lavoro, proponiamo un nuovo metodo, il Decodificatore Distillato 2 (DD2), per far progredire ulteriormente la fattibilità del campionamento a singolo passaggio per i modelli AR di immagini. A differenza di DD1, DD2 non si basa su una mappatura predefinita. Consideriamo il modello AR originale come un modello insegnante che fornisce il punteggio condizionale vero e proprio nello spazio latente di embedding per ogni posizione del token. Sulla base di ciò, proponiamo una nuova funzione di perdita per la distillazione del punteggio condizionale per addestrare un generatore a singolo passaggio. Nello specifico, addestriamo una rete separata per prevedere il punteggio condizionale della distribuzione generata e applichiamo la distillazione del punteggio ad ogni posizione del token condizionata ai token precedenti. I risultati sperimentali mostrano che DD2 consente un campionamento a singolo passaggio per i modelli AR di immagini con un aumento minimo dell'FID da 3.40 a 5.43 su ImageNet-256. Rispetto al baseline più forte, DD1, DD2 riduce il divario tra il campionamento a singolo passaggio e il modello AR originale del 67%, con un contemporaneo aumento della velocità di addestramento fino a 12.3 volte. DD2 rappresenta un passo significativo verso l'obiettivo della generazione AR a singolo passaggio, aprendo nuove possibilità per una modellazione AR rapida e di alta qualità. Il codice è disponibile all'indirizzo https://github.com/imagination-research/Distilled-Decoding-2.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of visual generative models. Despite their promising performance, they suffer from slow generation speed due to the large number of sampling steps required. Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step sampling for image AR models, it still incurs significant performance degradation in the one-step setting, and relies on a pre-defined mapping that limits its flexibility. In this work, we propose a new method, Distilled Decoding 2 (DD2), to further advances the feasibility of one-step sampling for image AR models. Unlike DD1, DD2 does not without rely on a pre-defined mapping. We view the original AR model as a teacher model which provides the ground truth conditional score in the latent embedding space at each token position. Based on this, we propose a novel conditional score distillation loss to train a one-step generator. Specifically, we train a separate network to predict the conditional score of the generated distribution and apply score distillation at every token position conditioned on previous tokens. Experimental results show that DD2 enables one-step sampling for image AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256. Compared to the strongest baseline DD1, DD2 reduces the gap between the one-step sampling and original AR model by 67%, with up to 12.3times training speed-up simultaneously. DD2 takes a significant step toward the goal of one-step AR generation, opening up new possibilities for fast and high-quality AR modeling. Code is available at https://github.com/imagination-research/Distilled-Decoding-2.
PDF72December 3, 2025