La Ventaja Secuencial: La Votación por Entropía Inversa Supera a la Autoconsistencia Paralela con Igual Cómputo
The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute
November 4, 2025
Autores: Aman Sharma, Paras Chopra
cs.AI
Resumen
Reexaminamos el escalado en tiempo de prueba para el razonamiento de modelos de lenguaje y planteamos una pregunta fundamental: con igual presupuesto de tokens y capacidad computacional, ¿es mejor ejecutar múltiples cadenas independientes en paralelo, o ejecutar menos cadenas que se refinan iterativamente mediante pasos secuenciales? A través de una evaluación exhaustiva en 5 modelos de código abierto de última generación y 3 benchmarks de razonamiento desafiantes, encontramos que el escalado secuencial, donde las cadenas se construyen explícitamente sobre intentos previos, supera consistentemente al paradigma dominante de la autoconsistencia paralela en el 95.6% de las configuraciones, con ganancias en precisión de hasta el 46.7%. Además, presentamos la votación ponderada por entropía inversa, un método novedoso libre de entrenamiento para impulsar aún más la precisión del escalado secuencial. Al ponderar las respuestas en proporción a la entropía inversa de sus cadenas de razonamiento, aumentamos nuestra tasa de éxito sobre la mayoría paralela y la establecemos como la estrategia óptima de escalado en tiempo de prueba. Nuestros hallazgos desafían fundamentalmente la ortodoxia del razonamiento paralelo que ha dominado el escalado en tiempo de prueba desde la decodificación por autoconsistencia de Wang et al. (2022), posicionando el refinamiento secuencial como la opción robusta por defecto para el razonamiento de los LLM modernos y haciendo necesario un cambio de paradigma en cómo abordamos la optimización en tiempo de inferencia.
English
We revisit test-time scaling for language model reasoning and ask a
fundamental question: at equal token budget and compute, is it better to run
multiple independent chains in parallel, or to run fewer chains that
iteratively refine through sequential steps? Through comprehensive evaluation
across 5 state-of-the-art open source models and 3 challenging reasoning
benchmarks, we find that sequential scaling where chains explicitly build upon
previous attempts consistently outperforms the dominant parallel
self-consistency paradigm in 95.6% of configurations with gains in accuracy
upto 46.7%. Further, we introduce inverse-entropy weighted voting, a novel
training-free method to further boost the accuracy of sequential scaling. By
weighing answers in proportion to the inverse entropy of their reasoning
chains, we increase our success rate over parallel majority and establish it as
the optimal test-time scaling strategy. Our findings fundamentally challenge
the parallel reasoning orthodoxy that has dominated test-time scaling since
Wang et al.'s self-consistency decoding (Wang et al., 2022), positioning
sequential refinement as the robust default for modern LLM reasoning and
necessitating a paradigm shift in how we approach inference-time optimization.