ReSum: Sbloccare l'intelligenza di ricerca a lungo termine tramite la sintesi contestuale
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
September 16, 2025
Autori: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) basati su agenti web dimostrano prestazioni solide in compiti ad alta intensità di conoscenza, ma sono limitati dalle restrizioni della finestra contestuale in paradigmi come ReAct. Query complesse che coinvolgono più entità, relazioni intrecciate e un elevato grado di incertezza richiedono cicli di ricerca estesi che esauriscono rapidamente il budget contestuale prima di raggiungere soluzioni complete. Per superare questa sfida, introduciamo ReSum, un paradigma innovativo che consente un'esplorazione indefinita attraverso la periodica sintesi del contesto. ReSum trasforma le storie di interazione in crescita in stati di ragionamento compatti, mantenendo la consapevolezza delle scoperte precedenti mentre aggira i vincoli contestuali. Per l'adattamento del paradigma, proponiamo ReSum-GRPO, integrando GRPO con un addestramento a traiettorie segmentate e la diffusione di vantaggi per familiarizzare gli agenti con il ragionamento condizionato dalle sintesi. Esperimenti estesi su agenti web di diverse dimensioni in tre benchmark dimostrano che ReSum offre un miglioramento assoluto medio del 4,5\% rispetto a ReAct, con ulteriori guadagni fino all'8,2\% dopo l'addestramento ReSum-GRPO. In particolare, con soli 1K campioni di addestramento, il nostro WebResummer-30B (una versione addestrata con ReSum-GRPO di WebSailor-30B) raggiunge il 33,3\% di Pass@1 su BrowseComp-zh e il 18,3\% su BrowseComp-en, superando gli agenti web open-source esistenti.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on
knowledge-intensive tasks but are hindered by context window limitations in
paradigms like ReAct. Complex queries involving multiple entities, intertwined
relationships, and high uncertainty demand extensive search cycles that rapidly
exhaust context budgets before reaching complete solutions. To overcome this
challenge, we introduce ReSum, a novel paradigm that enables indefinite
exploration through periodic context summarization. ReSum converts growing
interaction histories into compact reasoning states, maintaining awareness of
prior discoveries while bypassing context constraints. For paradigm adaptation,
we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and
advantage broadcasting to familiarize agents with summary-conditioned
reasoning. Extensive experiments on web agents of varying scales across three
benchmarks demonstrate that ReSum delivers an average absolute improvement of
4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO
training. Notably, with only 1K training samples, our WebResummer-30B (a
ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on
BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web
agents.