dVoting: Votação Rápida para dLLMs

Resumo

Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) representam um novo paradigma além da modelagem autoregressiva, oferecendo desempenho competitivo enquanto permitem naturalmente um processo de decodificação flexível. Especificamente, os dLLMs podem gerar *tokens* em posições arbitrárias em paralelo, dotando-os de um potencial significativo para escalonamento paralelo em tempo de teste, o que era anteriormente limitado pela severa ineficiência da modelagem autoregressiva. Neste trabalho, introduzimos o dVoting, uma técnica de votação rápida que aumenta a capacidade de raciocínio sem treinamento, com apenas uma sobrecarga computacional adicional aceitável. O dVoting é motivado pela observação de que, em múltiplas amostras para o mesmo *prompt*, as previsões de *tokens* permanecem amplamente consistentes, enquanto o desempenho é determinado por um pequeno subconjunto de *tokens* que exibe variabilidade entre amostras. Aproveitando a capacidade de geração em posição arbitrária dos dLLMs, o dVoting realiza refinamento iterativo por amostragem, identificando *tokens* incertos via análise de consistência, regenerando-os por votação e repetindo este processo até a convergência. Avaliações extensivas demonstram que o dVoting melhora consistentemente o desempenho em vários *benchmarks*. Ele alcança ganhos de 6,22%-7,66% no GSM8K, 4,40%-7,20% no MATH500, 3,16%-14,84% no ARC-C e 4,83%-5,74% no MMLU. Nosso código está disponível em https://github.com/fscdc/dVoting.

English

Diffusion Large Language Models (dLLMs) represent a new paradigm beyond autoregressive modeling, offering competitive performance while naturally enabling a flexible decoding process. Specifically, dLLMs can generate tokens at arbitrary positions in parallel, endowing them with significant potential for parallel test-time scaling, which was previously constrained by severe inefficiency in autoregressive modeling. In this work, we introduce dVoting, a fast voting technique that boosts reasoning capability without training, with only an acceptable extra computational overhead. dVoting is motivated by the observation that, across multiple samples for the same prompt, token predictions remain largely consistent, whereas performance is determined by a small subset of tokens exhibiting cross-sample variability. Leveraging the arbitrary-position generation capability of dLLMs, dVoting performs iterative refinement by sampling, identifying uncertain tokens via consistency analysis, regenerating them through voting, and repeating this process until convergence. Extensive evaluations demonstrate that dVoting consistently improves performance across various benchmarks. It achieves gains of 6.22%-7.66% on GSM8K, 4.40%-7.20% on MATH500, 3.16%-14.84% on ARC-C, and 4.83%-5.74% on MMLU. Our code is available at https://github.com/fscdc/dVoting

dVoting: Votação Rápida para dLLMs

dVoting: Fast Voting for dLLMs

Resumo

Support