계산 효율적인 테스트 시점 스케일링을 위한 최적 검증 세분성 재고찰
Rethinking Optimal Verification Granularity for Compute-Efficient Test-Time Scaling
May 16, 2025
저자: Hao Mark Chen, Guanxi Lu, Yasuyuki Okoshi, Zhiwen Mo, Masato Motomura, Hongxiang Fan
cs.AI
초록
테스트 타임 스케일링(TTS)은 대형 언어 모델(LLM)의 추론 능력을 향상시키는 데 효과적인 것으로 입증되었습니다. 검증은 TTS에서 핵심적인 역할을 하며, (1) 추론 성능과 (2) 계산 효율성에 동시에 영향을 미칩니다. 이는 검증의 품질과 계산 비용 때문입니다. 본 연구에서는 기존의 검증 패러다임에 도전하고, 최종 출력이나 개별 생성 단계만을 검증하는 것을 넘어 생성 과정 중 검증기가 얼마나 자주 호출되는지, 즉 검증 세분성의 영향을 체계적으로 조사하는 첫 번째 시도를 합니다. 이를 위해, 우리는 조정 가능한 세분성 매개변수 g를 통해 빔 서치와 Best-of-N 샘플링을 일반화하는 통합 알고리즘인 가변 세분성 탐색(VG-Search)을 소개합니다. 다양한 계산 예산, 생성기-검증기 구성 및 작업 속성 하에서 VG-Search를 사용한 광범위한 실험을 통해 g를 동적으로 선택함으로써 계산 효율성과 스케일링 동작을 개선할 수 있음을 확인했습니다. 이러한 발견을 바탕으로, 우리는 적응형 VG-Search 전략을 제안하며, 이는 빔 서치 대비 최대 3.1%, Best-of-N 대비 최대 3.6%의 정확도 향상을 달성하면서 FLOPs를 52% 이상 절감합니다. 향후 연구를 지원하기 위해 코드를 오픈소스로 공개할 예정입니다.
English
Test-time scaling (TTS) has proven effective in enhancing the reasoning
capabilities of large language models (LLMs). Verification plays a key role in
TTS, simultaneously influencing (1) reasoning performance and (2) compute
efficiency, due to the quality and computational cost of verification. In this
work, we challenge the conventional paradigms of verification, and make the
first attempt toward systematically investigating the impact of verification
granularity-that is, how frequently the verifier is invoked during generation,
beyond verifying only the final output or individual generation steps. To this
end, we introduce Variable Granularity Search (VG-Search), a unified algorithm
that generalizes beam search and Best-of-N sampling via a tunable granularity
parameter g. Extensive experiments with VG-Search under varying compute
budgets, generator-verifier configurations, and task attributes reveal that
dynamically selecting g can improve the compute efficiency and scaling
behavior. Building on these findings, we propose adaptive VG-Search strategies
that achieve accuracy gains of up to 3.1\% over Beam Search and 3.6\% over
Best-of-N, while reducing FLOPs by over 52\%. We will open-source the code to
support future research.