ChatPaper.aiChatPaper

DINGO: Eingeschränkte Inferenz für Diffusions-LLMs

DINGO: Constrained Inference for Diffusion LLMs

May 29, 2025
Autoren: Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI

Zusammenfassung

Diffusions-LLMs haben sich als vielversprechende Alternative zu konventionellen autoregressiven LLMs erwiesen und bieten ein erhebliches Potenzial für verbesserte Laufzeiteffizienz. Allerdings fehlt es bestehenden Diffusionsmodellen an der Fähigkeit, vom Benutzer spezifizierte formale Einschränkungen, wie reguläre Ausdrücke, nachweislich durchzusetzen, was sie für Aufgaben, die strukturierte Ausgaben erfordern, wie z. B. die Generierung von JSON mit festem Schema, unzuverlässig macht. Im Gegensatz zu autoregressiven Modellen, die Token sequenziell generieren, sagen Diffusions-LLMs einen Block von Token parallel vorher. Dieser Parallelismus macht traditionelle Algorithmen für eingeschränkte Dekodierung, die für die sequenzielle Token-Vorhersage entwickelt wurden, unwirksam bei der Bewahrung der wahren Ausgabeverteilung. Um diese Einschränkung zu überwinden, schlagen wir DINGO vor, eine auf dynamischer Programmierung basierende Strategie für eingeschränkte Dekodierung, die sowohl effizient als auch nachweislich verteilungserhaltend ist. DINGO ermöglicht die Stichprobenziehung von Ausgabezeichenfolgen mit der höchsten Wahrscheinlichkeit unter der vom Modell vorhergesagten Verteilung, während gleichzeitig alle vom Benutzer spezifizierten regulären Ausdrücke strikt erfüllt werden. Bei standardisierten Benchmarks für symbolische Mathematik und JSON-Generierung erreicht DINGO eine Verbesserung von bis zu 68 Prozentpunkten gegenüber unbegrenzter Inferenz.
English
Diffusion LLMs have emerged as a promising alternative to conventional autoregressive LLMs, offering significant potential for improved runtime efficiency. However, existing diffusion models lack the ability to provably enforce user-specified formal constraints, such as regular expressions, which makes them unreliable for tasks that require structured outputs, such as fixed-schema JSON generation. Unlike autoregressive models that generate tokens sequentially, diffusion LLMs predict a block of tokens in parallel. This parallelism makes traditional constrained decoding algorithms, which are designed for sequential token prediction, ineffective at preserving the true output distribution. To address this limitation, we propose DINGO, a dynamic programming-based constrained decoding strategy that is both efficient and provably distribution-preserving. DINGO enables sampling of output strings with the highest probability under the model's predicted distribution, while strictly satisfying any user-specified regular expression. On standard symbolic math and JSON generation benchmarks, DINGO achieves up to a 68 percentage point improvement over unconstrained inference
PDF262June 4, 2025