ChatPaper.aiChatPaper

PRInTS: 長期的情報探索のための報酬モデリング

PRInTS: Reward Modeling for Long-Horizon Information Seeking

November 24, 2025
著者: Jaewoo Lee, Archiki Prasad, Justin Chih-Yao Chen, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal
cs.AI

要旨

情報探索はAIエージェントの中核的な能力であり、長い軌道にわたってツールが生成した情報を収集し、推論することを要求する。しかし、このような多段階の情報探索タスクは、言語モデルを基盤とするエージェントにとって依然として課題である。プロセス報酬モデル(PRM)はテスト時に候補となるステップをランク付けすることでエージェントを誘導できるが、既存のPRMは二値判断による短い推論用に設計されており、ツールとの相互作用やツール出力に対する推論といった情報探索ステップのより豊富な次元を捉えることができず、長期的タスクにおいて急速に増大する文脈を扱うこともできない。これらの限界に対処するため、我々は二重の能力で訓練された生成的PRMであるPRInTSを提案する:(1) 複数のステップ品質次元(例:ツール出力の解釈、ツール呼び出しの情報量)にわたるPRM自身の推論に基づく密なスコアリング、および (2) ステップ評価に不可欠な情報を保ちながら増大する文脈を圧縮する軌道要約である。FRAMES、GAIA(レベル1-3)、WebWalkerQA(easy-hard)ベンチマークにおける複数モデルでの広範な評価とアブレーション研究により、PRInTSを用いたbest-of-nサンプリングが、オープンソースモデルおよび専門化されたエージェントの情報探索能力を向上させ、はるかに小規模な基盤エージェントでありながらフロンティアモデルの性能に匹敵あるいは凌駕し、他の強力な報酬モデリングベースラインを上回ることが明らかとなった。
English
Information-seeking is a core capability for AI agents, requiring them to gather and reason over tool-generated information across long trajectories. However, such multi-step information-seeking tasks remain challenging for agents backed by language models. While process reward models (PRMs) can guide agents by ranking candidate steps at test-time, existing PRMs, designed for short reasoning with binary judgment, cannot capture richer dimensions of information-seeking steps, such as tool interactions and reasoning over tool outputs, nor handle the rapidly growing context in long-horizon tasks. To address these limitations, we introduce PRInTS, a generative PRM trained with dual capabilities: (1) dense scoring based on the PRM's reasoning across multiple step quality dimensions (e.g., interpretation of tool outputs, tool call informativeness) and (2) trajectory summarization that compresses the growing context while preserving essential information for step evaluation. Extensive evaluations across FRAMES, GAIA (levels 1-3), and WebWalkerQA (easy-hard) benchmarks on multiple models, along with ablations, reveal that best-of-n sampling with PRInTS enhances information-seeking abilities of open-source models as well as specialized agents, matching or surpassing the performance of frontier models with a much smaller backbone agent and outperforming other strong reward modeling baselines.
PDF72February 7, 2026