ChatPaper.aiChatPaper

효율적인 사고 연쇄 추론을 위한 가치 기반 탐색

Value-Guided Search for Efficient Chain-of-Thought Reasoning

May 23, 2025
저자: Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun
cs.AI

초록

본 논문에서는 장문맥 추론 트레이스에 대한 가치 모델 훈련을 위한 간단하고 효율적인 방법을 제안합니다. 기존의 프로세스 보상 모델(PRMs)과 비교하여, 우리의 방법은 장문맥 추론 모델에 대해 정의하기 어려운 세부적인 "단계" 개념을 요구하지 않습니다. 250만 개의 추론 트레이스 데이터셋을 수집하여 15억 토큰 수준의 가치 모델을 훈련시키고, 이를 DeepSeek 모델에 적용하여 테스트 시간 계산 확장 시 성능을 개선했습니다. 블록 단위의 가치 기반 탐색(VGS)과 최종 가중 다수결 투표를 결합하면, 다수결 투표나 best-of-n과 같은 표준 방법보다 더 나은 테스트 시간 확장성을 달성할 수 있음을 발견했습니다. 64개의 생성 예산으로 추론할 때, DeepSeek-R1-Distill-1.5B 모델을 사용한 VGS는 네 가지 수학 경시대회 벤치마크(AIME 2024 & 2025, HMMT Feb 2024 & 2025)에서 평균 45.7%의 정확도를 달성하며, o3-mini-medium과 동등한 성능을 보였습니다. 또한, VGS는 동일한 성능을 달성하기 위해 필요한 추론 FLOPs를 다수결 투표에 비해 크게 줄였습니다. 우리의 데이터셋, 모델 및 코드베이스는 오픈소스로 공개되었습니다.
English
In this paper, we propose a simple and efficient method for value model training on long-context reasoning traces. Compared to existing process reward models (PRMs), our method does not require a fine-grained notion of "step," which is difficult to define for long-context reasoning models. By collecting a dataset of 2.5 million reasoning traces, we train a 1.5B token-level value model and apply it to DeepSeek models for improved performance with test-time compute scaling. We find that block-wise value-guided search (VGS) with a final weighted majority vote achieves better test-time scaling than standard methods such as majority voting or best-of-n. With an inference budget of 64 generations, VGS with DeepSeek-R1-Distill-1.5B achieves an average accuracy of 45.7% across four competition math benchmarks (AIME 2024 & 2025, HMMT Feb 2024 & 2025), reaching parity with o3-mini-medium. Moreover, VGS significantly reduces the inference FLOPs required to achieve the same performance of majority voting. Our dataset, model and codebase are open-sourced.

Summary

AI-Generated Summary

PDF42May 26, 2025