DINGO: Inferencia con Restricciones para Modelos de Lenguaje Basados en Difusión
DINGO: Constrained Inference for Diffusion LLMs
May 29, 2025
Autores: Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI
Resumen
Los modelos de lenguaje basados en difusión (Diffusion LLMs) han surgido como una alternativa prometedora a los modelos de lenguaje autoregresivos convencionales, ofreciendo un potencial significativo para mejorar la eficiencia en tiempo de ejecución. Sin embargo, los modelos de difusión existentes carecen de la capacidad para hacer cumplir de manera demostrable restricciones formales especificadas por el usuario, como expresiones regulares, lo que los hace poco confiables para tareas que requieren salidas estructuradas, como la generación de JSON con esquema fijo. A diferencia de los modelos autoregresivos, que generan tokens de manera secuencial, los Diffusion LLMs predicen un bloque de tokens en paralelo. Este paralelismo hace que los algoritmos tradicionales de decodificación restringida, diseñados para la predicción secuencial de tokens, sean ineficaces para preservar la verdadera distribución de salida. Para abordar esta limitación, proponemos DINGO, una estrategia de decodificación restringida basada en programación dinámica que es tanto eficiente como demostrablemente preservadora de la distribución. DINGO permite muestrear cadenas de salida con la mayor probabilidad bajo la distribución predicha por el modelo, mientras satisface estrictamente cualquier expresión regular especificada por el usuario. En benchmarks estándar de matemáticas simbólicas y generación de JSON, DINGO logra una mejora de hasta 68 puntos porcentuales en comparación con la inferencia no restringida.
English
Diffusion LLMs have emerged as a promising alternative to conventional
autoregressive LLMs, offering significant potential for improved runtime
efficiency. However, existing diffusion models lack the ability to provably
enforce user-specified formal constraints, such as regular expressions, which
makes them unreliable for tasks that require structured outputs, such as
fixed-schema JSON generation. Unlike autoregressive models that generate tokens
sequentially, diffusion LLMs predict a block of tokens in parallel. This
parallelism makes traditional constrained decoding algorithms, which are
designed for sequential token prediction, ineffective at preserving the true
output distribution. To address this limitation, we propose DINGO, a dynamic
programming-based constrained decoding strategy that is both efficient and
provably distribution-preserving. DINGO enables sampling of output strings with
the highest probability under the model's predicted distribution, while
strictly satisfying any user-specified regular expression. On standard symbolic
math and JSON generation benchmarks, DINGO achieves up to a 68 percentage point
improvement over unconstrained inference