ReSum: Desbloqueando la Inteligencia de Búsqueda a Largo Plazo mediante la Resumen de Contexto
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
September 16, 2025
Autores: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI
Resumen
Los agentes web basados en modelos de lenguaje de gran escala (LLM) demuestran un rendimiento sólido en tareas intensivas en conocimiento, pero se ven limitados por las restricciones de la ventana de contexto en paradigmas como ReAct. Las consultas complejas que involucran múltiples entidades, relaciones entrelazadas y alta incertidumbre requieren ciclos de búsqueda extensos que agotan rápidamente el presupuesto de contexto antes de alcanzar soluciones completas. Para superar este desafío, presentamos ReSum, un paradigma novedoso que permite una exploración indefinida mediante la resumización periódica del contexto. ReSum convierte historias de interacción crecientes en estados de razonamiento compactos, manteniendo la conciencia de descubrimientos previos mientras evita las limitaciones del contexto. Para la adaptación del paradigma, proponemos ReSum-GRPO, que integra GRPO con entrenamiento de trayectorias segmentadas y difusión de ventajas para familiarizar a los agentes con el razonamiento condicionado por resúmenes. Experimentos extensos en agentes web de diversas escalas en tres benchmarks demuestran que ReSum ofrece una mejora absoluta promedio del 4.5\% sobre ReAct, con ganancias adicionales de hasta el 8.2\% tras el entrenamiento con ReSum-GRPO. Notablemente, con solo 1K muestras de entrenamiento, nuestro WebResummer-30B (una versión entrenada con ReSum-GRPO de WebSailor-30B) alcanza un 33.3\% en Pass@1 en BrowseComp-zh y un 18.3\% en BrowseComp-en, superando a los agentes web de código abierto existentes.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on
knowledge-intensive tasks but are hindered by context window limitations in
paradigms like ReAct. Complex queries involving multiple entities, intertwined
relationships, and high uncertainty demand extensive search cycles that rapidly
exhaust context budgets before reaching complete solutions. To overcome this
challenge, we introduce ReSum, a novel paradigm that enables indefinite
exploration through periodic context summarization. ReSum converts growing
interaction histories into compact reasoning states, maintaining awareness of
prior discoveries while bypassing context constraints. For paradigm adaptation,
we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and
advantage broadcasting to familiarize agents with summary-conditioned
reasoning. Extensive experiments on web agents of varying scales across three
benchmarks demonstrate that ReSum delivers an average absolute improvement of
4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO
training. Notably, with only 1K training samples, our WebResummer-30B (a
ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on
BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web
agents.