ChatPaper.aiChatPaper

Дистиллированное декодирование 2: Одношаговая выборка в авторегрессионных моделях изображений с условной дистилляцией оценок

Distilled Decoding 2: One-step Sampling of Image Auto-regressive Models with Conditional Score Distillation

October 23, 2025
Авторы: Enshu Liu, Qian Chen, Xuefei Ning, Shengen Yan, Guohao Dai, Zinan Lin, Yu Wang
cs.AI

Аннотация

Авторегрессионные (AR) модели для изображений стали мощной парадигмой визуальных генеративных моделей. Несмотря на многообещающие результаты, они страдают от низкой скорости генерации из-за большого количества требуемых шагов сэмплирования. Хотя недавно был предложен метод Distilled Decoding 1 (DD1) для обеспечения многошагового сэмплирования в изображенческих AR-моделях, он все же демонстрирует значительную деградацию качества в одношаговом режиме и опирается на предопределенное отображение, что ограничивает его гибкость. В данной работе мы предлагаем новый метод, Distilled Decoding 2 (DD2), который продвигает возможность одношагового сэмплирования для изображенческих AR-моделей еще дальше. В отличие от DD1, DD2 не полагается на предопределенное отображение. Мы рассматриваем исходную AR-модель как учительскую модель, которая предоставляет истинные условные скоринги в пространстве латентных представлений на каждой позиции токена. На основе этого мы предлагаем новую функцию потерь для дистилляции условного скоринга для обучения одношагового генератора. А именно, мы обучаем отдельную сеть для предсказания условного скоринга генерируемого распределения и применяем дистилляцию скоринга на каждой позиции токена, обусловленной предыдущими токенами. Экспериментальные результаты показывают, что DD2 позволяет осуществлять одношаговое сэмплирование для изображенческих AR-моделей с минимальным увеличением FID с 3.40 до 5.43 на ImageNet-256. По сравнению с самым сильным базовым методом DD1, DD2 сокращает разрыв между одношаговым сэмплированием и исходной AR-моделью на 67%, одновременно обеспечивая ускорение обучения до 12.3 раз. DD2 делает значительный шаг к цели одношаговой AR-генерации, открывая новые возможности для быстрого и качественного AR-моделирования. Код доступен по адресу https://github.com/imagination-research/Distilled-Decoding-2.
English
Image Auto-regressive (AR) models have emerged as a powerful paradigm of visual generative models. Despite their promising performance, they suffer from slow generation speed due to the large number of sampling steps required. Although Distilled Decoding 1 (DD1) was recently proposed to enable few-step sampling for image AR models, it still incurs significant performance degradation in the one-step setting, and relies on a pre-defined mapping that limits its flexibility. In this work, we propose a new method, Distilled Decoding 2 (DD2), to further advances the feasibility of one-step sampling for image AR models. Unlike DD1, DD2 does not without rely on a pre-defined mapping. We view the original AR model as a teacher model which provides the ground truth conditional score in the latent embedding space at each token position. Based on this, we propose a novel conditional score distillation loss to train a one-step generator. Specifically, we train a separate network to predict the conditional score of the generated distribution and apply score distillation at every token position conditioned on previous tokens. Experimental results show that DD2 enables one-step sampling for image AR models with an minimal FID increase from 3.40 to 5.43 on ImageNet-256. Compared to the strongest baseline DD1, DD2 reduces the gap between the one-step sampling and original AR model by 67%, with up to 12.3times training speed-up simultaneously. DD2 takes a significant step toward the goal of one-step AR generation, opening up new possibilities for fast and high-quality AR modeling. Code is available at https://github.com/imagination-research/Distilled-Decoding-2.
PDF72December 31, 2025