ChatPaper.aiChatPaper

PRInTS: Belohnungsmodellierung für langfristige Informationssuche

PRInTS: Reward Modeling for Long-Horizon Information Seeking

November 24, 2025
papers.authors: Jaewoo Lee, Archiki Prasad, Justin Chih-Yao Chen, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal
cs.AI

papers.abstract

Informationsbeschaffung ist eine Kernfähigkeit für KI-Agenten, die es ihnen abverlangt, werkzeuggenerierte Informationen über lange Trajektorien hinweg zu sammeln und darüber zu schlussfolgern. Solche mehrstufigen Informationsbeschaffungsaufgaben stellen jedoch nach wie vor eine Herausforderung für Agenten auf Basis von Sprachmodellen dar. Während Prozess-Bewertungsmodelle (PRMs) Agenten durch das Bewerten von Kandidatenschritten zur Testzeit anleiten können, erfassen bestehende PRMs, die für kurze Schlussfolgerungen mit binären Urteilen konzipiert sind, weder reichere Dimensionen von Informationsbeschaffungsschritten – wie Werkzeuginteraktionen und Schlussfolgerungen über Werkzeugausgaben – noch bewältigen sie den schnell wachsenden Kontext in langfristigen Aufgaben. Um diese Einschränkungen zu adressieren, führen wir PRInTS ein, ein generatives PRM, das mit dualen Fähigkeiten trainiert wurde: (1) dichte Bewertung basierend auf der Schlussfolgerung des PRMs über mehrere Dimensionen der Schrittqualität (z.B. Interpretation von Werkzeugausgaben, Informationsgehalt des Werkzeugaufrufs) und (2) Trajektorienzusammenfassung, die den wachsenden Kontext komprimiert, während wesentliche Informationen für die Schrittwertung erhalten bleiben. Umfangreiche Evaluierungen über die Benchmarks FRAMES, GAIA (Level 1-3) und WebWalkerQA (einfach-schwer) an mehreren Modellen, ergänzt durch Ablationstudien, zeigen, dass Best-of-n-Sampling mit PRInTS die Informationsbeschaffungsfähigkeiten von Open-Source-Modellen sowie spezialisierten Agenten verbessert und die Leistung von Spitzenmodellen mit einem viel kleineren Basisagenten erreicht oder übertrifft, während es andere starke Bewertungsmodell-Baselines übertrifft.
English
Information-seeking is a core capability for AI agents, requiring them to gather and reason over tool-generated information across long trajectories. However, such multi-step information-seeking tasks remain challenging for agents backed by language models. While process reward models (PRMs) can guide agents by ranking candidate steps at test-time, existing PRMs, designed for short reasoning with binary judgment, cannot capture richer dimensions of information-seeking steps, such as tool interactions and reasoning over tool outputs, nor handle the rapidly growing context in long-horizon tasks. To address these limitations, we introduce PRInTS, a generative PRM trained with dual capabilities: (1) dense scoring based on the PRM's reasoning across multiple step quality dimensions (e.g., interpretation of tool outputs, tool call informativeness) and (2) trajectory summarization that compresses the growing context while preserving essential information for step evaluation. Extensive evaluations across FRAMES, GAIA (levels 1-3), and WebWalkerQA (easy-hard) benchmarks on multiple models, along with ablations, reveal that best-of-n sampling with PRInTS enhances information-seeking abilities of open-source models as well as specialized agents, matching or surpassing the performance of frontier models with a much smaller backbone agent and outperforming other strong reward modeling baselines.
PDF72February 7, 2026