dVoting: Voto Rapido per dLLM

Abstract

I Modelli Linguistici di Grande Dimensione a Diffusione (dLLM) rappresentano un nuovo paradigma che supera la modellazione autoregressiva, offrendo prestazioni competitive e abilitando naturalmente un processo di decodifica flessibile. Nello specifico, i dLLM possono generare token in posizioni arbitrarie in parallelo, dotandoli di un potenziale significativo per lo scaling parallelo al tempo di test, precedentemente limitato dalla grave inefficienza della modellazione autoregressiva. In questo lavoro, introduciamo dVoting, una tecnica di voto rapida che potenzia la capacità di ragionamento senza addestramento, con solo un sovraccarico computazionale aggiuntivo accettabile. dVoting è motivato dall'osservazione che, attraverso più campioni per lo stesso prompt, le previsioni dei token rimangono largamente consistenti, mentre le prestazioni sono determinate da un piccolo sottoinsieme di token che mostra variabilità cross-campione. Sfruttando la capacità di generazione in posizione arbitraria dei dLLM, dVoting esegue un raffinamento iterativo campionando, identificando i token incerti tramite analisi di consistenza, rigenerandoli attraverso il voto e ripetendo il processo fino alla convergenza. Valutazioni estensive dimostrano che dVoting migliora costantemente le prestazioni su vari benchmark. Ottiene guadagni del 6,22%-7,66% su GSM8K, del 4,40%-7,20% su MATH500, del 3,16%-14,84% su ARC-C e del 4,83%-5,74% su MMLU. Il nostro codice è disponibile all'indirizzo https://github.com/fscdc/dVoting

English

Diffusion Large Language Models (dLLMs) represent a new paradigm beyond autoregressive modeling, offering competitive performance while naturally enabling a flexible decoding process. Specifically, dLLMs can generate tokens at arbitrary positions in parallel, endowing them with significant potential for parallel test-time scaling, which was previously constrained by severe inefficiency in autoregressive modeling. In this work, we introduce dVoting, a fast voting technique that boosts reasoning capability without training, with only an acceptable extra computational overhead. dVoting is motivated by the observation that, across multiple samples for the same prompt, token predictions remain largely consistent, whereas performance is determined by a small subset of tokens exhibiting cross-sample variability. Leveraging the arbitrary-position generation capability of dLLMs, dVoting performs iterative refinement by sampling, identifying uncertain tokens via consistency analysis, regenerating them through voting, and repeating this process until convergence. Extensive evaluations demonstrate that dVoting consistently improves performance across various benchmarks. It achieves gains of 6.22%-7.66% on GSM8K, 4.40%-7.20% on MATH500, 3.16%-14.84% on ARC-C, and 4.83%-5.74% on MMLU. Our code is available at https://github.com/fscdc/dVoting

dVoting: Voto Rapido per dLLM

dVoting: Fast Voting for dLLMs

Abstract

Support