Последовательное преимущество: метод обратной энтропийной голосования превосходит параллельную самосогласованность при равных вычислительных затратах
The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute
November 4, 2025
Авторы: Aman Sharma, Paras Chopra
cs.AI
Аннотация
Мы возвращаемся к вопросу масштабирования на этапе тестирования для рассуждений языковых моделей и задаем фундаментальный вопрос: при равном бюджете токенов и вычислений, что лучше — запускать несколько независимых цепочек параллельно или запускать меньше цепочек, которые итеративно улучшаются за счет последовательных шагов? В результате всесторонней оценки пяти современных открытых моделей и трех сложных бенчмарков на рассуждение мы обнаружили, что последовательное масштабирование, при котором цепочки явно строятся на предыдущих попытках, стабильно превосходит доминирующую парадигму параллельного самосогласования в 95.6% конфигураций с повышением точности до 46.7%. Кроме того, мы представляем взвешенное голосование по обратной энтропии — новый метод без обучения, который дополнительно повышает точность последовательного масштабирования. Взвешивая ответы пропорционально обратной энтропии их цепочек рассуждений, мы увеличиваем наш показатель успеха по сравнению с параллельным мажоритарным голосованием и устанавливаем его как оптимальную стратегию масштабирования на этапе тестирования. Наши выводы фундаментально оспаривают ортодоксию параллельных рассуждений, которая доминировала в масштабировании на этапе тестирования со времен декодирования самосогласованности Ванга и др. (Wang et al., 2022), позиционируя последовательное уточнение как надежный вариант по умолчанию для современных LLM-рассуждений и требуя смены парадигмы в подходе к оптимизации на этапе вывода.
English
We revisit test-time scaling for language model reasoning and ask a
fundamental question: at equal token budget and compute, is it better to run
multiple independent chains in parallel, or to run fewer chains that
iteratively refine through sequential steps? Through comprehensive evaluation
across 5 state-of-the-art open source models and 3 challenging reasoning
benchmarks, we find that sequential scaling where chains explicitly build upon
previous attempts consistently outperforms the dominant parallel
self-consistency paradigm in 95.6% of configurations with gains in accuracy
upto 46.7%. Further, we introduce inverse-entropy weighted voting, a novel
training-free method to further boost the accuracy of sequential scaling. By
weighing answers in proportion to the inverse entropy of their reasoning
chains, we increase our success rate over parallel majority and establish it as
the optimal test-time scaling strategy. Our findings fundamentally challenge
the parallel reasoning orthodoxy that has dominated test-time scaling since
Wang et al.'s self-consistency decoding (Wang et al., 2022), positioning
sequential refinement as the robust default for modern LLM reasoning and
necessitating a paradigm shift in how we approach inference-time optimization.