Планируемая Диффузия

Аннотация

Ключевой проблемой в выводе больших языковых моделей является компромисс между скоростью генерации и качеством выходных данных. Авторегрессионные модели создают текст высокого качества, но генерируют токены последовательно. Диффузионные модели могут генерировать токены параллельно, но часто требуют множества итераций для достижения сопоставимого качества. Мы предлагаем метод "планируемой диффузии" — гибридный подход, сочетающий преимущества обеих парадигм. Планируемая диффузия работает в два этапа: сначала модель создает краткий авторегрессионный план, разбивающий выходные данные на меньшие независимые отрезки. Затем модель генерирует эти отрезки одновременно с использованием диффузии. Этот подход расширяет границу Парето между скоростью и качеством и предлагает практический путь к более быстрой генерации текста высокого качества. На наборе AlpacaEval, состоящем из 805 инструкций, планируемая диффузия достигает Парето-оптимального компромисса между качеством и задержкой, обеспечивая ускорение в 1.27x–1.81x по сравнению с авторегрессионной генерацией при снижении показателя успешности всего на 0.87\%–5.4\%. Наш анализ чувствительности показывает, что механизм планирования в планируемой диффузии минимален и надежен, а простые настройки во время выполнения позволяют гибко управлять компромиссом между качеством и задержкой.

English

A central challenge in large language model inference is the trade-off between generation speed and output quality. Autoregressive models produce high-quality text but generate tokens sequentially. Diffusion models can generate tokens in parallel but often need many iterations to match the same quality. We propose planned diffusion, a hybrid method that combines the strengths of both paradigms. Planned diffusion works in two stages: first, the model creates a short autoregressive plan that breaks the output into smaller, independent spans. Second, the model generates these spans simultaneously using diffusion. This approach expands the speed-quality Pareto frontier and provides a practical path to faster, high-quality text generation. On AlpacaEval, a suite of 805 instruction-following prompts, planned diffusion achieves Pareto-optimal trade-off between quality and latency, achieving 1.27x to 1.81x speedup over autoregressive generation with only 0.87\% to 5.4\% drop in win rate, respectively. Our sensitivity analysis shows that the planning mechanism of planned diffusion is minimal and reliable, and simple runtime knobs exist to provide flexible control of the quality-latency trade-off.

Планируемая Диффузия

Planned Diffusion

Аннотация

Support