해결-탐지-검증: 유연한 생성 검증기를 통한 추론 시 확장
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier
May 17, 2025
저자: Jianyuan Zhong, Zeju Li, Zhijian Xu, Xiangyu Wen, Kezhi Li, Qiang Xu
cs.AI
초록
복잡한 작업에 대한 대형 언어 모델(LLM)의 추론은 본질적으로 해결 정확도와 계산 효율성 간의 상충 관계를 수반한다. 성능을 개선하기 위한 검증 단계는 이러한 상황을 더욱 복잡하게 만드는데, 이는 검증 자체가 또 다른 어려운 상충 관계를 도입하기 때문이다. 정교한 생성적 보상 모델(GenRM)은 테스트 시점에 LLM과 단순히 통합할 경우 계산적으로 부담이 될 수 있는 반면, 더 간단하고 빠른 방법은 신뢰성이 떨어질 수 있다. 이러한 문제를 극복하기 위해, 우리는 유연한 검증 예산 할당 전략을 통해 신속하고 신뢰할 수 있는 빠른 사고와 꼼꼼한 느린 사고 간의 계산 자원을 유연하게 조절하는 새로운 생성적 검증기인 FlexiVe를 소개한다. 또한, 우리는 FlexiVe를 지능적으로 통합하고, 해결 완료 지점을 사전에 식별하여 표적 검증을 촉발하고 집중된 솔버 피드백을 제공하는 효율적인 추론 시점 확장 프레임워크인 Solve-Detect-Verify 파이프라인을 제안한다. 실험 결과, FlexiVe는 ProcessBench에서 추론 흔적 내 오류를 정확히 찾아내는 데 탁월한 성능을 보였다. 또한, 도전적인 수학적 추론 벤치마크(AIME 2024, AIME 2025, CNMO)에서 우리의 전체 접근 방식은 자기 일관성과 같은 기준선을 추론 정확도와 추론 효율성 면에서 능가했다. 우리의 시스템은 테스트 시점에서 LLM 추론을 강화하기 위한 확장 가능하고 효과적인 솔루션을 제공한다.
English
Large Language Model (LLM) reasoning for complex tasks inherently involves a
trade-off between solution accuracy and computational efficiency. The
subsequent step of verification, while intended to improve performance, further
complicates this landscape by introducing its own challenging trade-off:
sophisticated Generative Reward Models (GenRMs) can be computationally
prohibitive if naively integrated with LLMs at test-time, while simpler, faster
methods may lack reliability. To overcome these challenges, we introduce
FlexiVe, a novel generative verifier that flexibly balances computational
resources between rapid, reliable fast thinking and meticulous slow thinking
using a Flexible Allocation of Verification Budget strategy. We further propose
the Solve-Detect-Verify pipeline, an efficient inference-time scaling framework
that intelligently integrates FlexiVe, proactively identifying solution
completion points to trigger targeted verification and provide focused solver
feedback. Experiments show FlexiVe achieves superior accuracy in pinpointing
errors within reasoning traces on ProcessBench. Furthermore, on challenging
mathematical reasoning benchmarks (AIME 2024, AIME 2025, and CNMO), our full
approach outperforms baselines like self-consistency in reasoning accuracy and
inference efficiency. Our system offers a scalable and effective solution to
enhance LLM reasoning at test time.Summary
AI-Generated Summary