ChatPaper.aiChatPaper

PRInTS: Modelado de Recompensas para la Búsqueda de Información de Horizonte Largo

PRInTS: Reward Modeling for Long-Horizon Information Seeking

November 24, 2025
Autores: Jaewoo Lee, Archiki Prasad, Justin Chih-Yao Chen, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal
cs.AI

Resumen

La búsqueda de información es una capacidad fundamental para los agentes de IA, que requiere que recopilen y razonen sobre información generada por herramientas a lo largo de trayectorias extensas. Sin embargo, estas tareas de búsqueda de información de múltiples pasos siguen siendo un desafío para los agentes respaldados por modelos de lenguaje. Si bien los modelos de recompensa de proceso (PRM) pueden guiar a los agentes clasificando los pasos candidatos durante la prueba, los PRM existentes, diseñados para razonamientos cortos con juicios binarios, no pueden capturar dimensiones más ricas de los pasos de búsqueda de información, como las interacciones con herramientas y el razonamiento sobre sus resultados, ni manejar el contexto de rápido crecimiento en tareas de largo horizonte. Para abordar estas limitaciones, presentamos PRInTS, un PRM generativo entrenado con capacidades duales: (1) puntuación densa basada en el razonamiento del PRM a través de múltiples dimensiones de calidad de los pasos (por ejemplo, interpretación de los resultados de las herramientas, informatividad de la llamada a la herramienta) y (2) resumen de trayectorias que comprime el contexto en crecimiento preservando la información esencial para la evaluación de pasos. Evaluaciones exhaustivas en los puntos de referencia FRAMES, GAIA (niveles 1-3) y WebWalkerQA (fácil-difícil) con múltiples modelos, junto con ablaciones, revelan que el muestreo del mejor de n con PRInTS mejora las capacidades de búsqueda de información de modelos de código abierto y de agentes especializados, igualando o superando el rendimiento de modelos frontera con un agente base mucho más pequeño y superando a otras líneas base sólidas de modelado de recompensas.
English
Information-seeking is a core capability for AI agents, requiring them to gather and reason over tool-generated information across long trajectories. However, such multi-step information-seeking tasks remain challenging for agents backed by language models. While process reward models (PRMs) can guide agents by ranking candidate steps at test-time, existing PRMs, designed for short reasoning with binary judgment, cannot capture richer dimensions of information-seeking steps, such as tool interactions and reasoning over tool outputs, nor handle the rapidly growing context in long-horizon tasks. To address these limitations, we introduce PRInTS, a generative PRM trained with dual capabilities: (1) dense scoring based on the PRM's reasoning across multiple step quality dimensions (e.g., interpretation of tool outputs, tool call informativeness) and (2) trajectory summarization that compresses the growing context while preserving essential information for step evaluation. Extensive evaluations across FRAMES, GAIA (levels 1-3), and WebWalkerQA (easy-hard) benchmarks on multiple models, along with ablations, reveal that best-of-n sampling with PRInTS enhances information-seeking abilities of open-source models as well as specialized agents, matching or surpassing the performance of frontier models with a much smaller backbone agent and outperforming other strong reward modeling baselines.
PDF72February 7, 2026