ChatPaper.aiChatPaper

ReSum: Freisetzung von Langzeitsuchintelligenz durch Kontextzusammenfassung

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

September 16, 2025
papers.authors: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI

papers.abstract

Große Sprachmodelle (LLM)-basierte Web-Agenten zeigen starke Leistungen bei wissensintensiven Aufgaben, werden jedoch durch die Beschränkungen des Kontextfensters in Paradigmen wie ReAct behindert. Komplexe Abfragen, die mehrere Entitäten, verflochtene Beziehungen und hohe Unsicherheit beinhalten, erfordern umfangreiche Suchzyklen, die den Kontextbudget schnell erschöpfen, bevor vollständige Lösungen erreicht werden. Um diese Herausforderung zu bewältigen, führen wir ReSum ein, ein neuartiges Paradigma, das eine unbegrenzte Exploration durch periodische Kontextzusammenfassung ermöglicht. ReSum wandelt wachsende Interaktionsverläufe in kompakte Argumentationszustände um, behält das Bewusstsein für frühere Entdeckungen bei und umgeht gleichzeitig die Kontextbeschränkungen. Für die Paradigmenanpassung schlagen wir ReSum-GRPO vor, das GRPO mit segmentierter Trajektorien-Schulung und Vorteilsausstrahlung integriert, um Agenten mit der zusammenfassungsbasierten Argumentation vertraut zu machen. Umfangreiche Experimente mit Web-Agenten unterschiedlicher Größenordnungen über drei Benchmarks zeigen, dass ReSum eine durchschnittliche absolute Verbesserung von 4,5\% gegenüber ReAct erzielt, mit weiteren Gewinnen von bis zu 8,2\% nach der ReSum-GRPO-Schulung. Bemerkenswerterweise erreicht unser WebResummer-30B (eine ReSum-GRPO-geschulte Version von WebSailor-30B) mit nur 1K Trainingsproben 33,3\% Pass@1 auf BrowseComp-zh und 18,3\% auf BrowseComp-en und übertrifft damit bestehende Open-Source-Web-Agenten.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on knowledge-intensive tasks but are hindered by context window limitations in paradigms like ReAct. Complex queries involving multiple entities, intertwined relationships, and high uncertainty demand extensive search cycles that rapidly exhaust context budgets before reaching complete solutions. To overcome this challenge, we introduce ReSum, a novel paradigm that enables indefinite exploration through periodic context summarization. ReSum converts growing interaction histories into compact reasoning states, maintaining awareness of prior discoveries while bypassing context constraints. For paradigm adaptation, we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and advantage broadcasting to familiarize agents with summary-conditioned reasoning. Extensive experiments on web agents of varying scales across three benchmarks demonstrate that ReSum delivers an average absolute improvement of 4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO training. Notably, with only 1K training samples, our WebResummer-30B (a ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web agents.
PDF443September 17, 2025