FineVerify: 에이전틱 검색을 위한 세밀한 자기 검증을 통한 테스트 시간 연산 확장
FineVerify: Scaling Test-Time Compute with Fine-Grained Self-Verification for Agentic Search
May 30, 2026
저자: James Xu Zhao, Hui Chen, Bryan Hooi, See-Kiong Ng
cs.AI
초록
에이전틱 검색은 언어 모델 에이전트가 다양한 출처를 탐색하고 복잡한 정보 탐색 질문에 답변하도록 요구한다. 테스트 시간 연산을 확장하는 것은 이러한 에이전트를 개선하는 유망한 방법이지만, 정답이 종종 희박하고 점수 기반 선택이 모델 보정에 의존하기 때문에 현재 접근 방식은 실패할 수 있다. 본 논문에서는 FineVerify, 즉 세분화된 자체 검증 프레임워크를 제안한다. 이 프레임워크는 각 질문을 검증 가능한 하위 질문으로 분해하고, 샘플링된 후보들을 각 하위 질문에 대해 검증한 뒤 가장 높은 집계 점수를 가진 후보를 선택한다. 이러한 검사별 구조는 선택을 더 단순한 국부적 판단으로 전환하고, 동일한 명시적 기준 아래 점수를 생성한다. 네 가지 에이전틱 검색 벤치마크와 두 모델에 걸쳐 FineVerify는 표준 확장 기준선을 일관되게 능가한다. 단 네 개의 샘플링된 궤적으로 FineVerify는 GPT-5-mini에 대해 평균 8.2 정확도 포인트, Gemini-3-flash에 대해 5.6%의 성능 향상을 달성한다. 12개 샘플에서는 FineVerify를 통해 GPT-5-mini가 BrowseComp-Plus에서 최첨단 GPT-5를 능가한다. 정확성 외에도 FineVerify는 해석 가능한 검증 추적을 제공하여 벤치마크 오류 감사를 지원하므로, 에이전틱 검색 시스템을 검사하는 더 광범위한 응용 가능성을 시사한다. 코드와 데이터는 https://github.com/XuZhao0/fineverify에서 확인할 수 있다.
English
Agentic search requires language model agents to explore many sources and answer complex information-seeking questions. Scaling test-time compute is a promising way to improve these agents, but current approaches can fail, because correct answers are often sparse and score-based selection depends on model calibration. We propose FineVerify, a fine-grained self-verification framework that decomposes each question into checkable sub-questions, verifies sampled candidates against each sub-question, and selects the candidate with the highest aggregated score. This per-check structure turns selection into simpler local judgments and produces scores under the same explicit criteria. Across four agentic search benchmarks and two models, FineVerify consistently outperforms standard scaling baselines. With only four sampled trajectories, it improves GPT-5-mini by 8.2 accuracy points and Gemini-3-flash by 5.6% on average. With 12 samples, FineVerify enables GPT-5-mini to surpass frontier GPT-5 on BrowseComp-Plus. Beyond accuracy, FineVerify produces interpretable verification traces that help audit benchmark errors, suggesting broader applications for inspecting agentic search systems. Code and data are available at https://github.com/XuZhao0/fineverify