dVoting: Быстрое голосование для dLLM
dVoting: Fast Voting for dLLMs
February 12, 2026
Авторы: Sicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI
Аннотация
Диффузионные большие языковые модели (dLLM) представляют новую парадигму, выходящую за рамки авторегрессионного моделирования, демонстрируя конкурентоспособную производительность и при этом естественным образом обеспечивая гибкий процесс декодирования. В частности, dLLM способны генерировать токены в произвольных позициях параллельно, что наделяет их значительным потенциалом для масштабирования на этапе тестирования, которое ранее было ограничено крайней неэффективностью авторегрессионного моделирования. В данной работе мы представляем dVoting — быструю технику голосования, которая повышает способность к рассуждению без обучения, ценой лишь приемлемых дополнительных вычислительных затрат. dVoting мотивирована наблюдением, что для множества сэмплов одного и того же промта предсказания токенов в значительной степени остаются согласованными, тогда как производительность определяется небольшим подмножеством токенов, демонстрирующих вариабельность между сэмплами. Используя возможность dLLM генерировать токены в произвольных позициях, dVoting выполняет итеративное уточнение путем сэмплирования, идентификации ненадежных токенов посредством анализа согласованности, их повторной генерации через голосование и повторения этого процесса до сходимости. Обширные оценки демонстрируют, что dVoting стабильно улучшает производительность на различных бенчмарках. Метод позволяет достичь прироста в 6,22%–7,66% на GSM8K, 4,40%–7,20% на MATH500, 3,16%–14,84% на ARC-C и 4,83%–5,74% на MMLU. Наш код доступен по адресу https://github.com/fscdc/dVoting.
English
Diffusion Large Language Models (dLLMs) represent a new paradigm beyond autoregressive modeling, offering competitive performance while naturally enabling a flexible decoding process. Specifically, dLLMs can generate tokens at arbitrary positions in parallel, endowing them with significant potential for parallel test-time scaling, which was previously constrained by severe inefficiency in autoregressive modeling. In this work, we introduce dVoting, a fast voting technique that boosts reasoning capability without training, with only an acceptable extra computational overhead. dVoting is motivated by the observation that, across multiple samples for the same prompt, token predictions remain largely consistent, whereas performance is determined by a small subset of tokens exhibiting cross-sample variability. Leveraging the arbitrary-position generation capability of dLLMs, dVoting performs iterative refinement by sampling, identifying uncertain tokens via consistency analysis, regenerating them through voting, and repeating this process until convergence. Extensive evaluations demonstrate that dVoting consistently improves performance across various benchmarks. It achieves gains of 6.22%-7.66% on GSM8K, 4.40%-7.20% on MATH500, 3.16%-14.84% on ARC-C, and 4.83%-5.74% on MMLU. Our code is available at https://github.com/fscdc/dVoting