DINGO: Inferencia con Restricciones para Modelos de Lenguaje Basados en Difusión

Resumen

Los modelos de lenguaje basados en difusión (Diffusion LLMs) han surgido como una alternativa prometedora a los modelos de lenguaje autoregresivos convencionales, ofreciendo un potencial significativo para mejorar la eficiencia en tiempo de ejecución. Sin embargo, los modelos de difusión existentes carecen de la capacidad para hacer cumplir de manera demostrable restricciones formales especificadas por el usuario, como expresiones regulares, lo que los hace poco confiables para tareas que requieren salidas estructuradas, como la generación de JSON con esquema fijo. A diferencia de los modelos autoregresivos, que generan tokens de manera secuencial, los Diffusion LLMs predicen un bloque de tokens en paralelo. Este paralelismo hace que los algoritmos tradicionales de decodificación restringida, diseñados para la predicción secuencial de tokens, sean ineficaces para preservar la verdadera distribución de salida. Para abordar esta limitación, proponemos DINGO, una estrategia de decodificación restringida basada en programación dinámica que es tanto eficiente como demostrablemente preservadora de la distribución. DINGO permite muestrear cadenas de salida con la mayor probabilidad bajo la distribución predicha por el modelo, mientras satisface estrictamente cualquier expresión regular especificada por el usuario. En benchmarks estándar de matemáticas simbólicas y generación de JSON, DINGO logra una mejora de hasta 68 puntos porcentuales en comparación con la inferencia no restringida.

English

Diffusion LLMs have emerged as a promising alternative to conventional autoregressive LLMs, offering significant potential for improved runtime efficiency. However, existing diffusion models lack the ability to provably enforce user-specified formal constraints, such as regular expressions, which makes them unreliable for tasks that require structured outputs, such as fixed-schema JSON generation. Unlike autoregressive models that generate tokens sequentially, diffusion LLMs predict a block of tokens in parallel. This parallelism makes traditional constrained decoding algorithms, which are designed for sequential token prediction, ineffective at preserving the true output distribution. To address this limitation, we propose DINGO, a dynamic programming-based constrained decoding strategy that is both efficient and provably distribution-preserving. DINGO enables sampling of output strings with the highest probability under the model's predicted distribution, while strictly satisfying any user-specified regular expression. On standard symbolic math and JSON generation benchmarks, DINGO achieves up to a 68 percentage point improvement over unconstrained inference

DINGO: Inferencia con Restricciones para Modelos de Lenguaje Basados en Difusión

DINGO: Constrained Inference for Diffusion LLMs

Resumen

Support