Принудительная диффузия: предсказание следующего токена встречает диффузию полной последовательности.Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
В данной статье представлена техника обучения под названием "Diffusion Forcing", где модель диффузии обучается для удаления шума из набора токенов с независимыми уровнями шума для каждого токена. Мы применяем "Diffusion Forcing" к генерации последовательностей, обучая причинную модель предсказания следующего токена для создания одного или нескольких будущих токенов без полного распространения прошлых. Наш подход показывает способность объединить преимущества моделей предсказания следующего токена, такие как генерация переменной длины, с преимуществами моделей полной последовательности диффузии, такие как способность направлять выборку по желательным траекториям. Наш метод предлагает ряд дополнительных возможностей, таких как (1) развертывание последовательностей непрерывных токенов, таких как видео, с длиной превышающей горизонт обучения, где базовые значения расходятся и (2) новые схемы выборки и направления, которые уникально извлекают выгоду из переменного горизонта и причинной архитектуры "Diffusion Forcing", что приводит к значительному улучшению производительности в задачах принятия решений и планирования. Помимо эмпирического успеха, наш метод доказано оптимизирует вариационную нижнюю границу для вероятностей всех подпоследовательностей токенов, взятых из истинного совместного распределения. Веб-сайт проекта: https://boyuan.space/diffusion-forcing/