Gedistilleerd Decoderen 2: Eén-staps Steekproefname van Autoregressieve Beeldmodellen met Voorwaardelijke Score-Distillatie
Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
October 23, 2025
Auteurs: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI
Samenvatting
Beeld Auto-regressieve (AR) modellen zijn naar voren gekomen als een krachtig paradigma voor visuele generatieve modellen. Ondanks hun veelbelovende prestaties hebben ze last van een trage generatiesnelheid vanwege het grote aantal benodigde samplingstappen. Hoewel Distilled Decoding 1 (DD1) recentelijk werd voorgesteld om sampling in weinig stappen mogelijk te maken voor beeld-AR-modellen, leidt het nog steeds tot aanzienlijke prestatievermindering in de instelling met één stap, en is het afhankelijk van een vooraf gedefinieerde mapping die de flexibiliteit beperkt. In dit werk stellen we een nieuwe methode voor, Distilled Decoding 2 (DD2), om de haalbaarheid van sampling in één stap voor beeld-AR-modellen verder te bevorderen. In tegenstelling tot DD1 is DD2 niet afhankelijk van een vooraf gedefinieerde mapping. We beschouwen het oorspronkelijke AR-model als een leraarmodel dat de grondwaarheid conditionele score verschaft in de latente inbeddingsruimte op elke tokenpositie. Op basis hiervan stellen we een nieuw verlies voor conditionele score-distillatie voor om een generator voor één stap te trainen. Specifiek trainen we een apart netwerk om de conditionele score van de gegenereerde verdeling te voorspellen en passen we score-distillatie toe op elke tokenpositie, geconditioneerd op voorgaande tokens. Experimentele resultaten tonen aan dat DD2 sampling in één stap mogelijk maakt voor beeld-AR-modellen met een minimale FID-stijging van 3.40 naar 5.43 op ImageNet-256. Vergeleken met de sterkste baseline DD1, verkleint DD2 de kloof tussen sampling in één stap en het oorspronkelijke AR-model met 67%, met tegelijkertijd een trainingsversnelling tot 12,3 keer. DD2 zet een significante stap richting het doel van AR-generatie in één stap, wat nieuwe mogelijkheden opent voor snelle en hoogwaardige AR-modellering. Code is beschikbaar op https://github.com/imagination-research/Distilled-Decoding-2.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of
visual generative models. Despite their promising performance, they suffer from
slow generation speed due to the large number of sampling steps required.
Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step
sampling for image AR models, it still incurs significant performance
degradation in the one-step setting, and relies on a pre-defined mapping that
limits its flexibility. In this work, we propose a new method, Distilled
Decoding 2 (DD2), to further advances the feasibility of one-step sampling for
image AR models. Unlike DD1, DD2 does not without rely on a pre-defined
mapping. We view the original AR model as a teacher model which provides the
ground truth conditional score in the latent embedding space at each token
position. Based on this, we propose a novel conditional score
distillation loss to train a one-step generator. Specifically, we train a
separate network to predict the conditional score of the generated distribution
and apply score distillation at every token position conditioned on previous
tokens. Experimental results show that DD2 enables one-step sampling for image
AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256.
Compared to the strongest baseline DD1, DD2 reduces the gap between the
one-step sampling and original AR model by 67%, with up to 12.3times
training speed-up simultaneously. DD2 takes a significant step toward the goal
of one-step AR generation, opening up new possibilities for fast and
high-quality AR modeling. Code is available at
https://github.com/imagination-research/Distilled-Decoding-2.