DINGO: Ограниченный вывод для диффузионных больших языковых моделей
DINGO: Constrained Inference for Diffusion LLMs
May 29, 2025
Авторы: Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI
Аннотация
Диффузионные языковые модели (LLM) появились как перспективная альтернатива традиционным авторегрессивным LLM, предлагая значительный потенциал для повышения эффективности выполнения. Однако существующие диффузионные модели не способны гарантированно соблюдать формальные ограничения, заданные пользователем, такие как регулярные выражения, что делает их ненадежными для задач, требующих структурированных выходных данных, например, генерации JSON с фиксированной схемой. В отличие от авторегрессивных моделей, которые генерируют токены последовательно, диффузионные LLM предсказывают блок токенов параллельно. Этот параллелизм делает традиционные алгоритмы ограниченного декодирования, разработанные для последовательного предсказания токенов, неэффективными для сохранения истинного распределения выходных данных. Чтобы устранить это ограничение, мы предлагаем DINGO — стратегию ограниченного декодирования на основе динамического программирования, которая является как эффективной, так и гарантированно сохраняющей распределение. DINGO позволяет выбирать строки с наибольшей вероятностью в рамках предсказанного моделью распределения, строго удовлетворяя любому заданному пользователем регулярному выражению. На стандартных тестах для генерации символической математики и JSON DINGO демонстрирует улучшение до 68 процентных пунктов по сравнению с неограниченным выводом.
English
Diffusion LLMs have emerged as a promising alternative to conventional
autoregressive LLMs, offering significant potential for improved runtime
efficiency. However, existing diffusion models lack the ability to provably
enforce user-specified formal constraints, such as regular expressions, which
makes them unreliable for tasks that require structured outputs, such as
fixed-schema JSON generation. Unlike autoregressive models that generate tokens
sequentially, diffusion LLMs predict a block of tokens in parallel. This
parallelism makes traditional constrained decoding algorithms, which are
designed for sequential token prediction, ineffective at preserving the true
output distribution. To address this limitation, we propose DINGO, a dynamic
programming-based constrained decoding strategy that is both efficient and
provably distribution-preserving. DINGO enables sampling of output strings with
the highest probability under the model's predicted distribution, while
strictly satisfying any user-specified regular expression. On standard symbolic
math and JSON generation benchmarks, DINGO achieves up to a 68 percentage point
improvement over unconstrained inference