DINGO: 확산 기반 대형 언어 모델을 위한 제약 조건 기반 추론
DINGO: Constrained Inference for Diffusion LLMs
May 29, 2025
저자: Tarun Suresh, Debangshu Banerjee, Shubham Ugare, Sasa Misailovic, Gagandeep Singh
cs.AI
초록
디퓨전 LLM은 기존의 자기회귀적 LLM에 비해 유망한 대안으로 떠올랐으며, 런타임 효율성의 상당한 개선 가능성을 제공합니다. 그러나 기존의 디퓨전 모델은 정규 표현식과 같은 사용자 지정 형식적 제약 조건을 확실하게 강제할 수 있는 능력이 부족하여, 고정 스키마 JSON 생성과 같은 구조화된 출력이 필요한 작업에 대해 신뢰할 수 없습니다. 토큰을 순차적으로 생성하는 자기회귀 모델과 달리, 디퓨전 LLM은 토큰 블록을 병렬로 예측합니다. 이러한 병렬성은 순차적 토큰 예측을 위해 설계된 기존의 제약 디코딩 알고리즘이 실제 출력 분포를 보존하는 데 비효율적이게 만듭니다. 이러한 한계를 해결하기 위해, 우리는 동적 프로그래밍 기반의 제약 디코딩 전략인 DINGO를 제안합니다. DINGO는 효율적이며 확률 분포를 보존하는 것이 증명 가능한 방법으로, 사용자가 지정한 정규 표현식을 엄격히 만족시키면서 모델의 예측 분포 하에서 가장 높은 확률을 가진 출력 문자열을 샘플링할 수 있게 합니다. 표준 기호 수학 및 JSON 생성 벤치마크에서 DINGO는 제약 없는 추론에 비해 최대 68% 포인트의 성능 향상을 달성했습니다.
English
Diffusion LLMs have emerged as a promising alternative to conventional
autoregressive LLMs, offering significant potential for improved runtime
efficiency. However, existing diffusion models lack the ability to provably
enforce user-specified formal constraints, such as regular expressions, which
makes them unreliable for tasks that require structured outputs, such as
fixed-schema JSON generation. Unlike autoregressive models that generate tokens
sequentially, diffusion LLMs predict a block of tokens in parallel. This
parallelism makes traditional constrained decoding algorithms, which are
designed for sequential token prediction, ineffective at preserving the true
output distribution. To address this limitation, we propose DINGO, a dynamic
programming-based constrained decoding strategy that is both efficient and
provably distribution-preserving. DINGO enables sampling of output strings with
the highest probability under the model's predicted distribution, while
strictly satisfying any user-specified regular expression. On standard symbolic
math and JSON generation benchmarks, DINGO achieves up to a 68 percentage point
improvement over unconstrained inference