ReSum: Het Ontsluiten van Langetermijn Zoekintelligentie via Contextsamenvatting
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
September 16, 2025
Auteurs: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI
Samenvatting
Large Language Model (LLM)-gebaseerde webagents vertonen sterke prestaties op kennisintensieve taken, maar worden belemmerd door beperkingen in het contextvenster binnen paradigma's zoals ReAct. Complexe queries met meerdere entiteiten, verweven relaties en hoge onzekerheid vereisen uitgebreide zoekcycli die snel het contextbudget uitputten voordat volledige oplossingen worden bereikt. Om deze uitdaging te overwinnen, introduceren we ReSum, een nieuw paradigma dat onbeperkte exploratie mogelijk maakt door periodieke contextsamenvatting. ReSum zet groeiende interactiegeschiedenissen om in compacte redeneertoestanden, waardoor het bewustzijn van eerdere ontdekkingen behouden blijft terwijl contextbeperkingen worden omzeild. Voor paradigma-aanpassing stellen we ReSum-GRPO voor, dat GRPO integreert met gesegmenteerde trajecttraining en voordeeluitzending om agents vertrouwd te maken met samenvatting-gestuurd redeneren. Uitgebreide experimenten met webagents van verschillende schalen over drie benchmarks tonen aan dat ReSum een gemiddelde absolute verbetering van 4,5\% biedt ten opzichte van ReAct, met verdere winsten tot 8,2\% na ReSum-GRPO-training. Opmerkelijk is dat ons WebResummer-30B (een ReSum-GRPO-getrainde versie van WebSailor-30B) met slechts 1K trainingsamples een Pass@1 van 33,3\% behaalt op BrowseComp-zh en 18,3\% op BrowseComp-en, waarmee het bestaande open-source webagents overtreft.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on
knowledge-intensive tasks but are hindered by context window limitations in
paradigms like ReAct. Complex queries involving multiple entities, intertwined
relationships, and high uncertainty demand extensive search cycles that rapidly
exhaust context budgets before reaching complete solutions. To overcome this
challenge, we introduce ReSum, a novel paradigm that enables indefinite
exploration through periodic context summarization. ReSum converts growing
interaction histories into compact reasoning states, maintaining awareness of
prior discoveries while bypassing context constraints. For paradigm adaptation,
we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and
advantage broadcasting to familiarize agents with summary-conditioned
reasoning. Extensive experiments on web agents of varying scales across three
benchmarks demonstrate that ReSum delivers an average absolute improvement of
4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO
training. Notably, with only 1K training samples, our WebResummer-30B (a
ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on
BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web
agents.