dVoting: Schnelles Abstimmen für dLLMs

papers.abstract

Diffusion Large Language Models (dLLMs) stellen ein neues Paradigma jenseits der autoregressiven Modellierung dar und bieten eine wettbewerbsfähige Leistung, während sie gleichzeitig einen flexiblen Decodierungsprozess ermöglichen. Insbesondere können dLLMs Token an beliebigen Positionen parallel generieren, was ihnen ein erhebliches Potenzial für paralleles Skalieren zur Testzeit verleiht, das zuvor durch erhebliche Ineffizienz in der autoregressiven Modellierung eingeschränkt war. In dieser Arbeit stellen wir dVoting vor, eine schnelle Voting-Technik, die die Reasoning-Fähigkeit ohne Training steigert und dabei nur einen akzeptablen zusätzlichen Rechenaufwand erfordert. dVoting ist motiviert durch die Beobachtung, dass Token-Vorhersagen über mehrere Stichproben für denselben Prompt hinweg weitgehend konsistent bleiben, während die Leistung von einer kleinen Teilmenge von Token bestimmt wird, die eine variierende Vorhersage über die Stichproben hinweg aufweisen. Unter Ausnutzung der Fähigkeit von dLLMs, Token an beliebigen Positionen zu generieren, führt dVoting eine iterative Verbesserung durch Sampling durch, identifiziert unsichere Token mittels Konsistenzanalyse, regeneriert sie durch Voting und wiederholt diesen Prozess bis zur Konvergenz. Umfangreiche Auswertungen zeigen, dass dVoting die Leistung über verschiedene Benchmarks hinweg konsistent verbessert. Es erzielt Steigerungen von 6,22 %–7,66 % auf GSM8K, 4,40 %–7,20 % auf MATH500, 3,16 %–14,84 % auf ARC-C und 4,83 %–5,74 % auf MMLU. Unser Code ist verfügbar unter https://github.com/fscdc/dVoting.

English

Diffusion Large Language Models (dLLMs) represent a new paradigm beyond autoregressive modeling, offering competitive performance while naturally enabling a flexible decoding process. Specifically, dLLMs can generate tokens at arbitrary positions in parallel, endowing them with significant potential for parallel test-time scaling, which was previously constrained by severe inefficiency in autoregressive modeling. In this work, we introduce dVoting, a fast voting technique that boosts reasoning capability without training, with only an acceptable extra computational overhead. dVoting is motivated by the observation that, across multiple samples for the same prompt, token predictions remain largely consistent, whereas performance is determined by a small subset of tokens exhibiting cross-sample variability. Leveraging the arbitrary-position generation capability of dLLMs, dVoting performs iterative refinement by sampling, identifying uncertain tokens via consistency analysis, regenerating them through voting, and repeating this process until convergence. Extensive evaluations demonstrate that dVoting consistently improves performance across various benchmarks. It achieves gains of 6.22%-7.66% on GSM8K, 4.40%-7.20% on MATH500, 3.16%-14.84% on ARC-C, and 4.83%-5.74% on MMLU. Our code is available at https://github.com/fscdc/dVoting

dVoting: Schnelles Abstimmen für dLLMs

dVoting: Fast Voting for dLLMs

papers.abstract

Support