Последовательное преимущество: метод обратной энтропийной голосования превосходит параллельную самосогласованность при равных вычислительных затратах

Аннотация

Мы возвращаемся к вопросу масштабирования на этапе тестирования для рассуждений языковых моделей и задаем фундаментальный вопрос: при равном бюджете токенов и вычислений, что лучше — запускать несколько независимых цепочек параллельно или запускать меньше цепочек, которые итеративно улучшаются за счет последовательных шагов? В результате всесторонней оценки пяти современных открытых моделей и трех сложных бенчмарков на рассуждение мы обнаружили, что последовательное масштабирование, при котором цепочки явно строятся на предыдущих попытках, стабильно превосходит доминирующую парадигму параллельного самосогласования в 95.6% конфигураций с повышением точности до 46.7%. Кроме того, мы представляем взвешенное голосование по обратной энтропии — новый метод без обучения, который дополнительно повышает точность последовательного масштабирования. Взвешивая ответы пропорционально обратной энтропии их цепочек рассуждений, мы увеличиваем наш показатель успеха по сравнению с параллельным мажоритарным голосованием и устанавливаем его как оптимальную стратегию масштабирования на этапе тестирования. Наши выводы фундаментально оспаривают ортодоксию параллельных рассуждений, которая доминировала в масштабировании на этапе тестирования со времен декодирования самосогласованности Ванга и др. (Wang et al., 2022), позиционируя последовательное уточнение как надежный вариант по умолчанию для современных LLM-рассуждений и требуя смены парадигмы в подходе к оптимизации на этапе вывода.

English

We revisit test-time scaling for language model reasoning and ask a fundamental question: at equal token budget and compute, is it better to run multiple independent chains in parallel, or to run fewer chains that iteratively refine through sequential steps? Through comprehensive evaluation across 5 state-of-the-art open source models and 3 challenging reasoning benchmarks, we find that sequential scaling where chains explicitly build upon previous attempts consistently outperforms the dominant parallel self-consistency paradigm in 95.6% of configurations with gains in accuracy upto 46.7%. Further, we introduce inverse-entropy weighted voting, a novel training-free method to further boost the accuracy of sequential scaling. By weighing answers in proportion to the inverse entropy of their reasoning chains, we increase our success rate over parallel majority and establish it as the optimal test-time scaling strategy. Our findings fundamentally challenge the parallel reasoning orthodoxy that has dominated test-time scaling since Wang et al.'s self-consistency decoding (Wang et al., 2022), positioning sequential refinement as the robust default for modern LLM reasoning and necessitating a paradigm shift in how we approach inference-time optimization.

Последовательное преимущество: метод обратной энтропийной голосования превосходит параллельную самосогласованность при равных вычислительных затратах

The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

Аннотация

Support