DINGO: Inferenza Vincolata per Modelli Linguistici Basati su Diffusione
DINGO: Constrained Inference for Diffusion LLMs
May 29, 2025
Autori: Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI
Abstract
I modelli linguistici basati su diffusione (Diffusion LLMs) si sono affermati come una promettente alternativa ai tradizionali modelli linguistici autoregressivi, offrendo un potenziale significativo per migliorare l'efficienza in fase di esecuzione. Tuttavia, i modelli di diffusione esistenti non sono in grado di applicare in modo dimostrabile vincoli formali specificati dall'utente, come le espressioni regolari, il che li rende inaffidabili per compiti che richiedono output strutturati, come la generazione di JSON con schema fisso. A differenza dei modelli autoregressivi che generano i token in sequenza, i Diffusion LLMs prevedono un blocco di token in parallelo. Questo parallelismo rende inefficaci i tradizionali algoritmi di decodifica vincolata, progettati per la previsione sequenziale dei token, nel preservare la vera distribuzione dell'output. Per affrontare questa limitazione, proponiamo DINGO, una strategia di decodifica vincolata basata sulla programmazione dinamica che è sia efficiente che dimostrabilmente conservativa della distribuzione. DINGO consente il campionamento di stringhe di output con la massima probabilità secondo la distribuzione prevista dal modello, rispettando rigorosamente qualsiasi espressione regolare specificata dall'utente. Su benchmark standard di matematica simbolica e generazione di JSON, DINGO raggiunge un miglioramento fino a 68 punti percentuali rispetto all'inferenza non vincolata.
English
Diffusion LLMs have emerged as a promising alternative to conventional
autoregressive LLMs, offering significant potential for improved runtime
efficiency. However, existing diffusion models lack the ability to provably
enforce user-specified formal constraints, such as regular expressions, which
makes them unreliable for tasks that require structured outputs, such as
fixed-schema JSON generation. Unlike autoregressive models that generate tokens
sequentially, diffusion LLMs predict a block of tokens in parallel. This
parallelism makes traditional constrained decoding algorithms, which are
designed for sequential token prediction, ineffective at preserving the true
output distribution. To address this limitation, we propose DINGO, a dynamic
programming-based constrained decoding strategy that is both efficient and
provably distribution-preserving. DINGO enables sampling of output strings with
the highest probability under the model's predicted distribution, while
strictly satisfying any user-specified regular expression. On standard symbolic
math and JSON generation benchmarks, DINGO achieves up to a 68 percentage point
improvement over unconstrained inference