DINGO : Inférence contrainte pour les modèles de langage à diffusion
DINGO: Constrained Inference for Diffusion LLMs
May 29, 2025
Auteurs: Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI
Résumé
Les modèles de langage à diffusion (Diffusion LLMs) sont apparus comme une alternative prometteuse aux modèles de langage autoregressifs conventionnels, offrant un potentiel significatif d'amélioration de l'efficacité en temps d'exécution. Cependant, les modèles de diffusion existants ne parviennent pas à appliquer de manière prouvée des contraintes formelles spécifiées par l'utilisateur, telles que les expressions régulières, ce qui les rend peu fiables pour les tâches nécessitant des sorties structurées, comme la génération de JSON avec un schéma fixe. Contrairement aux modèles autoregressifs qui génèrent des tokens de manière séquentielle, les Diffusion LLMs prédisent un bloc de tokens en parallèle. Ce parallélisme rend les algorithmes traditionnels de décodage contraint, conçus pour la prédiction séquentielle de tokens, inefficaces pour préserver la véritable distribution des sorties. Pour pallier cette limitation, nous proposons DINGO, une stratégie de décodage contraint basée sur la programmation dynamique, à la fois efficace et prouvée comme préservant la distribution. DINGO permet l'échantillonnage de chaînes de sortie avec la probabilité la plus élevée selon la distribution prédite par le modèle, tout en satisfaisant strictement toute expression régulière spécifiée par l'utilisateur. Sur des benchmarks standards de génération de mathématiques symboliques et de JSON, DINGO atteint une amélioration allant jusqu'à 68 points de pourcentage par rapport à l'inférence non contrainte.
English
Diffusion LLMs have emerged as a promising alternative to conventional
autoregressive LLMs, offering significant potential for improved runtime
efficiency. However, existing diffusion models lack the ability to provably
enforce user-specified formal constraints, such as regular expressions, which
makes them unreliable for tasks that require structured outputs, such as
fixed-schema JSON generation. Unlike autoregressive models that generate tokens
sequentially, diffusion LLMs predict a block of tokens in parallel. This
parallelism makes traditional constrained decoding algorithms, which are
designed for sequential token prediction, ineffective at preserving the true
output distribution. To address this limitation, we propose DINGO, a dynamic
programming-based constrained decoding strategy that is both efficient and
provably distribution-preserving. DINGO enables sampling of output strings with
the highest probability under the model's predicted distribution, while
strictly satisfying any user-specified regular expression. On standard symbolic
math and JSON generation benchmarks, DINGO achieves up to a 68 percentage point
improvement over unconstrained inference