ChatPaper.aiChatPaper

순차적 엣지: 동일 계산량에서 역엔트로피 투표가 병렬 자기 일관성을 능가한다

The Sequential Edge: Inverse-Entropy Voting Beats Parallel Self-Consistency at Matched Compute

November 4, 2025
저자: Aman Sharma, Paras Chopra
cs.AI

초록

언어 모델 추론을 위한 테스트 타임 스케일링을 재검토하며 근본적인 질문을 던집니다: 동일한 토큰 예산과 컴퓨팅 자원 하에서, 여러 개의 독립적인 체인을 병렬로 실행하는 것과 순차적 단계를 통해 반복적으로 개선하는 더 적은 수의 체인을 실행하는 것 중 어느 것이 더 나은가? 5개의 최첨단 오픈 소스 모델과 3개의 도전적인 추론 벤치마크에 대한 포괄적 평가를 통해, 체인이 이전 시도를 명시적으로 발전시키는 순차적 스케일링이 기존의 병렬 자기 일관성 패러다임을 95.6%의 구성에서 일관되게 능가하며 최대 46.7%의 정확도 향상을 보인다는 사실을 발견했습니다. 더 나아가, 순차적 스케일링의 정확도를 추가로 향상시키는 새로운 학습 불필요 방법인 역-엔트로피 가중 투표를 소개합니다. 추론 체인의 엔트로피 역수에 비례하여 답변에 가중치를 부여함으로써, 병렬 다수결 기반 접근법보다 성공률을 높이고 이를 최적의 테스트 타임 스케일링 전략으로 확립합니다. 우리의 연구 결과는 Wang et al.의 자기 일관성 디코딩(Wang et al., 2022) 이후 테스트 타임 스케일링을 지배해 온 병렬 추론 관행에 근본적으로 도전하며, 순차적 정제를 현대 LLM 추론을 위한 강력한 기본값으로 자리매김하고 추론 시간 최적화 접근 방식에 대한 패러다임 전환의 필요성을 제기합니다.
English
We revisit test-time scaling for language model reasoning and ask a fundamental question: at equal token budget and compute, is it better to run multiple independent chains in parallel, or to run fewer chains that iteratively refine through sequential steps? Through comprehensive evaluation across 5 state-of-the-art open source models and 3 challenging reasoning benchmarks, we find that sequential scaling where chains explicitly build upon previous attempts consistently outperforms the dominant parallel self-consistency paradigm in 95.6% of configurations with gains in accuracy upto 46.7%. Further, we introduce inverse-entropy weighted voting, a novel training-free method to further boost the accuracy of sequential scaling. By weighing answers in proportion to the inverse entropy of their reasoning chains, we increase our success rate over parallel majority and establish it as the optimal test-time scaling strategy. Our findings fundamentally challenge the parallel reasoning orthodoxy that has dominated test-time scaling since Wang et al.'s self-consistency decoding (Wang et al., 2022), positioning sequential refinement as the robust default for modern LLM reasoning and necessitating a paradigm shift in how we approach inference-time optimization.
PDF42December 1, 2025