Принудительная диффузия: предсказание следующего токена встречает диффузию полной последовательности.
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
July 1, 2024
Авторы: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann
cs.AI
Аннотация
В данной статье представлена техника обучения под названием "Diffusion Forcing", где модель диффузии обучается для удаления шума из набора токенов с независимыми уровнями шума для каждого токена. Мы применяем "Diffusion Forcing" к генерации последовательностей, обучая причинную модель предсказания следующего токена для создания одного или нескольких будущих токенов без полного распространения прошлых. Наш подход показывает способность объединить преимущества моделей предсказания следующего токена, такие как генерация переменной длины, с преимуществами моделей полной последовательности диффузии, такие как способность направлять выборку по желательным траекториям. Наш метод предлагает ряд дополнительных возможностей, таких как (1) развертывание последовательностей непрерывных токенов, таких как видео, с длиной превышающей горизонт обучения, где базовые значения расходятся и (2) новые схемы выборки и направления, которые уникально извлекают выгоду из переменного горизонта и причинной архитектуры "Diffusion Forcing", что приводит к значительному улучшению производительности в задачах принятия решений и планирования. Помимо эмпирического успеха, наш метод доказано оптимизирует вариационную нижнюю границу для вероятностей всех подпоследовательностей токенов, взятых из истинного совместного распределения. Веб-сайт проекта: https://boyuan.space/diffusion-forcing/
English
This paper presents Diffusion Forcing, a new training paradigm where a
diffusion model is trained to denoise a set of tokens with independent
per-token noise levels. We apply Diffusion Forcing to sequence generative
modeling by training a causal next-token prediction model to generate one or
several future tokens without fully diffusing past ones. Our approach is shown
to combine the strengths of next-token prediction models, such as
variable-length generation, with the strengths of full-sequence diffusion
models, such as the ability to guide sampling to desirable trajectories. Our
method offers a range of additional capabilities, such as (1) rolling-out
sequences of continuous tokens, such as video, with lengths past the training
horizon, where baselines diverge and (2) new sampling and guiding schemes that
uniquely profit from Diffusion Forcing's variable-horizon and causal
architecture, and which lead to marked performance gains in decision-making and
planning tasks. In addition to its empirical success, our method is proven to
optimize a variational lower bound on the likelihoods of all subsequences of
tokens drawn from the true joint distribution. Project website:
https://boyuan.space/diffusion-forcing/Summary
AI-Generated Summary