dVoting: Snelle Stemming voor dLLM's

Samenvatting

Diffusion Large Language Models (dLLM's) vertegenwoordigen een nieuw paradigma dat verder gaat dan autoregressieve modellering, waarbij ze competitieve prestaties bieden en tegelijkertijd een flexibel decodeerproces mogelijk maken. Specifiek kunnen dLLM's tokens op willekeurige posities parallel genereren, wat hen een aanzienlijk potentieel geeft voor parallelle schaalvergroting tijdens het testen, wat voorheen werd beperkt door ernstige inefficiëntie in autoregressieve modellering. In dit werk introduceren we dVoting, een snelle stemtechniek die het redeneervermogen verbetert zonder training, met slechts een acceptabele extra rekenkosten. dVoting is gemotiveerd door de observatie dat, over meerdere samples voor dezelfde prompt, tokenvoorspellingen grotendeels consistent blijven, terwijl de prestaties worden bepaald door een kleine subset van tokens die variabiliteit tussen samples vertonen. Gebruikmakend van de willekeurige-positie-generatiecapaciteit van dLLM's, voert dVoting iteratieve verfijning uit door te samplen, onzekere tokens te identificeren via consistentieanalyse, deze opnieuw te genereren door middel van stemmen, en dit proces te herhalen tot convergentie. Uitgebreide evaluaties tonen aan dat dVoting consistent de prestaties verbetert op diverse benchmarks. Het behaalt winsten van 6,22%-7,66% op GSM8K, 4,40%-7,20% op MATH500, 3,16%-14,84% op ARC-C en 4,83%-5,74% op MMLU. Onze code is beschikbaar op https://github.com/fscdc/dVoting.

English

Diffusion Large Language Models (dLLMs) represent a new paradigm beyond autoregressive modeling, offering competitive performance while naturally enabling a flexible decoding process. Specifically, dLLMs can generate tokens at arbitrary positions in parallel, endowing them with significant potential for parallel test-time scaling, which was previously constrained by severe inefficiency in autoregressive modeling. In this work, we introduce dVoting, a fast voting technique that boosts reasoning capability without training, with only an acceptable extra computational overhead. dVoting is motivated by the observation that, across multiple samples for the same prompt, token predictions remain largely consistent, whereas performance is determined by a small subset of tokens exhibiting cross-sample variability. Leveraging the arbitrary-position generation capability of dLLMs, dVoting performs iterative refinement by sampling, identifying uncertain tokens via consistency analysis, regenerating them through voting, and repeating this process until convergence. Extensive evaluations demonstrate that dVoting consistently improves performance across various benchmarks. It achieves gains of 6.22%-7.66% on GSM8K, 4.40%-7.20% on MATH500, 3.16%-14.84% on ARC-C, and 4.83%-5.74% on MMLU. Our code is available at https://github.com/fscdc/dVoting

dVoting: Snelle Stemming voor dLLM's

dVoting: Fast Voting for dLLMs

Samenvatting

Support