ChatPaper.aiChatPaper

dVoting: Voto Rápido para dLLMs

dVoting: Fast Voting for dLLMs

February 12, 2026
Autores: Sicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes de Difusión (dLLMs) representan un nuevo paradigma más allá del modelado autoregresivo, ofreciendo un rendimiento competitivo mientras permiten de forma natural un proceso de decodificación flexible. Específicamente, los dLLMs pueden generar tokens en posiciones arbitrarias en paralelo, lo que les otorga un potencial significativo para el escalado paralelo en tiempo de prueba, que anteriormente estaba limitado por una grave ineficiencia en el modelado autoregresivo. En este trabajo, presentamos dVoting, una técnica de votación rápida que potencia la capacidad de razonamiento sin entrenamiento, con solo una sobrecarga computacional adicional aceptable. dVoting está motivado por la observación de que, en múltiples muestras para el mismo *prompt*, las predicciones de tokens permanecen en gran medida consistentes, mientras que el rendimiento está determinado por un pequeño subconjunto de tokens que exhiben variabilidad entre muestras. Aprovechando la capacidad de generación en posiciones arbitrarias de los dLLMs, dVoting realiza un refinamiento iterativo mediante muestreo, identifica tokens inciertos mediante análisis de consistencia, los regenera a través de votación y repite este proceso hasta la convergencia. Evaluaciones exhaustivas demuestran que dVoting mejora consistentemente el rendimiento en varios benchmarks. Logra ganancias del 6.22%-7.66% en GSM8K, 4.40%-7.20% en MATH500, 3.16%-14.84% en ARC-C y 4.83%-5.74% en MMLU. Nuestro código está disponible en https://github.com/fscdc/dVoting.
English
Diffusion Large Language Models (dLLMs) represent a new paradigm beyond autoregressive modeling, offering competitive performance while naturally enabling a flexible decoding process. Specifically, dLLMs can generate tokens at arbitrary positions in parallel, endowing them with significant potential for parallel test-time scaling, which was previously constrained by severe inefficiency in autoregressive modeling. In this work, we introduce dVoting, a fast voting technique that boosts reasoning capability without training, with only an acceptable extra computational overhead. dVoting is motivated by the observation that, across multiple samples for the same prompt, token predictions remain largely consistent, whereas performance is determined by a small subset of tokens exhibiting cross-sample variability. Leveraging the arbitrary-position generation capability of dLLMs, dVoting performs iterative refinement by sampling, identifying uncertain tokens via consistency analysis, regenerating them through voting, and repeating this process until convergence. Extensive evaluations demonstrate that dVoting consistently improves performance across various benchmarks. It achieves gains of 6.22%-7.66% on GSM8K, 4.40%-7.20% on MATH500, 3.16%-14.84% on ARC-C, and 4.83%-5.74% on MMLU. Our code is available at https://github.com/fscdc/dVoting
PDF171February 14, 2026