PRInTS: 장기 정보 탐색을 위한 보상 모델링
PRInTS: Reward Modeling for Long-Horizon Information Seeking
November 24, 2025
저자: Jaewoo Lee, Archiki Prasad, Justin Chih-Yao Chen, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal
cs.AI
초록
정보 탐색은 AI 에이전트의 핵심 능력으로, 장기적인 실행 궤적에 걸쳐 도구 생성 정보를 수집하고 추론하는 것을 요구합니다. 그러나 이러한 다단계 정보 탐색 작업은 언어 모델 기반 에이전트에게 여전히 어려운 과제로 남아 있습니다. 과정 보상 모델(PRM)은 테스트 시점에 후보 단계들을 순위화하여 에이전트를 안내할 수 있지만, 이진 판단을 통한 짧은 추론을 위해 설계된 기존 PRM들은 도구 상호작용이나 도구 출력에 대한 추론과 같은 정보 탐색 단계의 풍부한 차원을 포착하지 못하며, 장기 과제에서 급격히 증가하는 맥락을 처리하지도 못합니다. 이러한 한계를 해결하기 위해 우리는 이중 능력으로 훈련된 생성형 PRM인 PRInTS를 소개합니다: (1) PRM의 다중 단계 품질 차원(예: 도구 출력 해석, 도구 호출 정보성)에 걸친 추론을 기반으로 한 조밀 점수화와 (2) 단계 평가에 필수적인 정보를 보존하면서 증가하는 맥락을 압축하는 궤적 요약입니다. FRAMES, GAIA(1-3단계), WebWalkerQA(쉬움-어려움) 벤치마크에서 여러 모델을 대상으로 한 포괄적인 평가와 절제 연구를 통해 확인된 바에 따르면, PRInTS를 활용한 n-최선 표본 추출은 오픈소스 모델뿐만 아니라 특화 에이전트의 정보 탐색 능력을 향상시키며, 훨씬 작은 백본 에이전트로 프론티어 모델의 성능에 맞서거나 능가하고, 다른 강력한 보상 모델링 기준선들을 뛰어넘는 성과를 보입니다.
English
Information-seeking is a core capability for AI agents, requiring them to gather and reason over tool-generated information across long trajectories. However, such multi-step information-seeking tasks remain challenging for agents backed by language models. While process reward models (PRMs) can guide agents by ranking candidate steps at test-time, existing PRMs, designed for short reasoning with binary judgment, cannot capture richer dimensions of information-seeking steps, such as tool interactions and reasoning over tool outputs, nor handle the rapidly growing context in long-horizon tasks. To address these limitations, we introduce PRInTS, a generative PRM trained with dual capabilities: (1) dense scoring based on the PRM's reasoning across multiple step quality dimensions (e.g., interpretation of tool outputs, tool call informativeness) and (2) trajectory summarization that compresses the growing context while preserving essential information for step evaluation. Extensive evaluations across FRAMES, GAIA (levels 1-3), and WebWalkerQA (easy-hard) benchmarks on multiple models, along with ablations, reveal that best-of-n sampling with PRInTS enhances information-seeking abilities of open-source models as well as specialized agents, matching or surpassing the performance of frontier models with a much smaller backbone agent and outperforming other strong reward modeling baselines.