dVoting: dLLM을 위한 고속 투표
dVoting: Fast Voting for dLLMs
February 12, 2026
저자: Sicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
초록
확산 대형 언어 모델(dLLMs)은 자기회귀 모델링을 넘어선 새로운 패러다임으로, 경쟁력 있는 성능을 제공하면서도 유연한 디코딩 과정을 자연스럽게 가능하게 합니다. 구체적으로, dLLMs는 임의의 위치에서 토큰을 병렬로 생성할 수 있어, 기존 자기회귀 모델링의 심각한 비효율성으로 제약받았던 병렬 테스트 타임 스케일링에 상당한 잠재력을 부여합니다. 본 연구에서는 추론 능력을 훈련 없이 향상시키며, 허용 가능한 수준의 추가 계산 오버헤드만 발생하는 빠른 투표 기법인 dVoting을 소개합니다. dVoting은 동일한 프롬프트에 대한 여러 샘플에서 토큰 예측은 대체로 일관되게 유지되는 반면, 성능은 샘플 간 변동성을 보이는 소수의 토큰에 의해 결정된다는 관찰에서 착안했습니다. dVoting은 dLLMs의 임의 위치 생성 능력을 활용하여 샘플링, 일관성 분석을 통한 불확실 토큰 식별, 투표를 통한 재생성 과정을 반복하며 반복적 정제를 수행하고, 이 과정을 수렴할 때까지 반복합니다. 광범위한 평가 결과, dVoting이 다양한 벤치마크에서 지속적으로 성능을 향상시키는 것으로 나타났습니다. GSM8K에서 6.22%-7.66%, MATH500에서 4.40%-7.20%, ARC-C에서 3.16%-14.84%, MMLU에서 4.83%-5.74%의 성능 향상을 달성했습니다. 우리의 코드는 https://github.com/fscdc/dVoting 에서 확인할 수 있습니다.
English
Diffusion Large Language Models (dLLMs) represent a new paradigm beyond autoregressive modeling, offering competitive performance while naturally enabling a flexible decoding process. Specifically, dLLMs can generate tokens at arbitrary positions in parallel, endowing them with significant potential for parallel test-time scaling, which was previously constrained by severe inefficiency in autoregressive modeling. In this work, we introduce dVoting, a fast voting technique that boosts reasoning capability without training, with only an acceptable extra computational overhead. dVoting is motivated by the observation that, across multiple samples for the same prompt, token predictions remain largely consistent, whereas performance is determined by a small subset of tokens exhibiting cross-sample variability. Leveraging the arbitrary-position generation capability of dLLMs, dVoting performs iterative refinement by sampling, identifying uncertain tokens via consistency analysis, regenerating them through voting, and repeating this process until convergence. Extensive evaluations demonstrate that dVoting consistently improves performance across various benchmarks. It achieves gains of 6.22%-7.66% on GSM8K, 4.40%-7.20% on MATH500, 3.16%-14.84% on ARC-C, and 4.83%-5.74% on MMLU. Our code is available at https://github.com/fscdc/dVoting