ChatPaper.aiChatPaper

ReSum : Libérer l'intelligence de recherche à long terme grâce à la synthèse contextuelle

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

September 16, 2025
papers.authors: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI

papers.abstract

Les agents web basés sur des modèles de langage de grande taille (LLM) démontrent des performances solides sur les tâches nécessitant une connaissance approfondie, mais sont limités par les contraintes de la fenêtre contextuelle dans des paradigmes comme ReAct. Les requêtes complexes impliquant plusieurs entités, des relations imbriquées et un haut degré d'incertitude exigent des cycles de recherche étendus qui épuisent rapidement le budget contextuel avant d'atteindre des solutions complètes. Pour surmonter ce défi, nous introduisons ReSum, un nouveau paradigme qui permet une exploration indéfinie grâce à une synthèse contextuelle périodique. ReSum transforme les historiques d'interaction croissants en états de raisonnement compacts, maintenant une conscience des découvertes antérieures tout en contournant les limites contextuelles. Pour l'adaptation du paradigme, nous proposons ReSum-GRPO, intégrant GRPO avec un entraînement segmenté des trajectoires et une diffusion des avantages pour familiariser les agents avec un raisonnement conditionné par les synthèses. Des expériences approfondies sur des agents web de différentes échelles à travers trois benchmarks montrent que ReSum offre une amélioration absolue moyenne de 4,5 % par rapport à ReAct, avec des gains supplémentaires allant jusqu'à 8,2 % après l'entraînement ReSum-GRPO. Notamment, avec seulement 1 000 échantillons d'entraînement, notre WebResummer-30B (une version entraînée avec ReSum-GRPO de WebSailor-30B) atteint 33,3 % de Pass@1 sur BrowseComp-zh et 18,3 % sur BrowseComp-en, surpassant les agents web open-source existants.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on knowledge-intensive tasks but are hindered by context window limitations in paradigms like ReAct. Complex queries involving multiple entities, intertwined relationships, and high uncertainty demand extensive search cycles that rapidly exhaust context budgets before reaching complete solutions. To overcome this challenge, we introduce ReSum, a novel paradigm that enables indefinite exploration through periodic context summarization. ReSum converts growing interaction histories into compact reasoning states, maintaining awareness of prior discoveries while bypassing context constraints. For paradigm adaptation, we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and advantage broadcasting to familiarize agents with summary-conditioned reasoning. Extensive experiments on web agents of varying scales across three benchmarks demonstrate that ReSum delivers an average absolute improvement of 4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO training. Notably, with only 1K training samples, our WebResummer-30B (a ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web agents.
PDF443September 17, 2025