Destilliertes Decodieren 2: Ein-Schritt-Sampling von autoregressiven Bildmodellen mit bedingter Score-Destillation
Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation
October 23, 2025
papers.authors: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI
papers.abstract
Bild-Autoregressive (AR) Modelle haben sich als leistungsstarkes Paradigma für visuelle generative Modelle etabliert. Trotz vielversprechender Leistung leiden sie unter einer langsamen Erzeugungsgeschwindigkeit, die auf die große Anzahl erforderlicher Abtastschritte zurückzuführen ist. Obwohl kürzlich Distilled Decoding 1 (DD1) vorgeschlagen wurde, um eine Abtastung mit wenigen Schritten für bild-AR-Modelle zu ermöglichen, führt es im Ein-Schritt-Modus immer noch zu einer erheblichen Leistungseinbuße und ist auf eine vordefinierte Abbildung angewiesen, die seine Flexibilität einschränkt. In dieser Arbeit schlagen wir eine neue Methode, Distilled Decoding 2 (DD2), vor, um die Machbarkeit der Ein-Schritt-Abtastung für bild-AR-Modelle weiter voranzutreiben. Im Gegensatz zu DD1 ist DD2 nicht auf eine vordefinierte Abbildung angewiesen. Wir betrachten das ursprüngliche AR-Modell als ein Lehrermodell, das den wahren bedingten Score im latenten Einbettungsraum an jeder Token-Position liefert. Basierend darauf schlagen wir einen neuartigen Verlust für die bedingte Score-Destillation vor, um einen Ein-Schritt-Generator zu trainieren. Konkret trainieren wir ein separates Netzwerk, um den bedingten Score der erzeugten Verteilung vorherzusagen, und wenden die Score-Destillation an jeder Token-Position unter Bedingung der vorherigen Token an. Experimentelle Ergebnisse zeigen, dass DD2 die Ein-Schritt-Abtastung für bild-AR-Modelle mit einem minimalen FID-Anstieg von 3,40 auf 5,43 auf ImageNet-256 ermöglicht. Im Vergleich zum stärksten Baseline-Modell DD1 verringert DD2 die Lücke zwischen der Ein-Schritt-Abtastung und dem ursprünglichen AR-Modell um 67 % und erreicht gleichzeitig eine bis zu 12,3-fache Beschleunigung des Trainings. DD2 macht einen bedeutenden Schritt in Richtung des Ziels einer Ein-Schritt-AR-Erzeugung und eröffnet neue Möglichkeiten für schnelles und hochwertiges AR-Modellieren. Der Code ist verfügbar unter https://github.com/imagination-research/Distilled-Decoding-2.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of
visual generative models. Despite their promising performance, they suffer from
slow generation speed due to the large number of sampling steps required.
Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step
sampling for image AR models, it still incurs significant performance
degradation in the one-step setting, and relies on a pre-defined mapping that
limits its flexibility. In this work, we propose a new method, Distilled
Decoding 2 (DD2), to further advances the feasibility of one-step sampling for
image AR models. Unlike DD1, DD2 does not without rely on a pre-defined
mapping. We view the original AR model as a teacher model which provides the
ground truth conditional score in the latent embedding space at each token
position. Based on this, we propose a novel conditional score
distillation loss to train a one-step generator. Specifically, we train a
separate network to predict the conditional score of the generated distribution
and apply score distillation at every token position conditioned on previous
tokens. Experimental results show that DD2 enables one-step sampling for image
AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256.
Compared to the strongest baseline DD1, DD2 reduces the gap between the
one-step sampling and original AR model by 67%, with up to 12.3times
training speed-up simultaneously. DD2 takes a significant step toward the goal
of one-step AR generation, opening up new possibilities for fast and
high-quality AR modeling. Code is available at
https://github.com/imagination-research/Distilled-Decoding-2.