La Ventaja Secuencial: La Votación por Entropía Inversa Supera a la Autoconsistencia Paralela con Igual Cómputo

Resumen

Reexaminamos el escalado en tiempo de prueba para el razonamiento de modelos de lenguaje y planteamos una pregunta fundamental: con igual presupuesto de tokens y capacidad computacional, ¿es mejor ejecutar múltiples cadenas independientes en paralelo, o ejecutar menos cadenas que se refinan iterativamente mediante pasos secuenciales? A través de una evaluación exhaustiva en 5 modelos de código abierto de última generación y 3 benchmarks de razonamiento desafiantes, encontramos que el escalado secuencial, donde las cadenas se construyen explícitamente sobre intentos previos, supera consistentemente al paradigma dominante de la autoconsistencia paralela en el 95.6% de las configuraciones, con ganancias en precisión de hasta el 46.7%. Además, presentamos la votación ponderada por entropía inversa, un método novedoso libre de entrenamiento para impulsar aún más la precisión del escalado secuencial. Al ponderar las respuestas en proporción a la entropía inversa de sus cadenas de razonamiento, aumentamos nuestra tasa de éxito sobre la mayoría paralela y la establecemos como la estrategia óptima de escalado en tiempo de prueba. Nuestros hallazgos desafían fundamentalmente la ortodoxia del razonamiento paralelo que ha dominado el escalado en tiempo de prueba desde la decodificación por autoconsistencia de Wang et al. (2022), posicionando el refinamiento secuencial como la opción robusta por defecto para el razonamiento de los LLM modernos y haciendo necesario un cambio de paradigma en cómo abordamos la optimización en tiempo de inferencia.

English

We revisit test-time scaling for language model reasoning and ask a fundamental question: at equal token budget and compute, is it better to run multiple independent chains in parallel, or to run fewer chains that iteratively refine through sequential steps? Through comprehensive evaluation across 5 state-of-the-art open source models and 3 challenging reasoning benchmarks, we find that sequential scaling where chains explicitly build upon previous attempts consistently outperforms the dominant parallel self-consistency paradigm in 95.6% of configurations with gains in accuracy upto 46.7%. Further, we introduce inverse-entropy weighted voting, a novel training-free method to further boost the accuracy of sequential scaling. By weighing answers in proportion to the inverse entropy of their reasoning chains, we increase our success rate over parallel majority and establish it as the optimal test-time scaling strategy. Our findings fundamentally challenge the parallel reasoning orthodoxy that has dominated test-time scaling since Wang et al.'s self-consistency decoding (Wang et al., 2022), positioning sequential refinement as the robust default for modern LLM reasoning and necessitating a paradigm shift in how we approach inference-time optimization.

La Ventaja Secuencial: La Votación por Entropía Inversa Supera a la Autoconsistencia Paralela con Igual Cómputo

The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

Resumen

Support