ReSum: Desbloqueando Inteligência de Busca de Longo Horizonte por meio de Resumo de Contexto
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
September 16, 2025
Autores: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI
Resumo
Agentes web baseados em Large Language Models (LLMs) demonstram um desempenho robusto em tarefas que exigem conhecimento intensivo, mas são limitados pelas restrições de janelas de contexto em paradigmas como o ReAct. Consultas complexas envolvendo múltiplas entidades, relações interconectadas e alto grau de incerteza demandam ciclos extensivos de busca que rapidamente esgotam o orçamento de contexto antes de alcançar soluções completas. Para superar esse desafio, introduzimos o ReSum, um paradigma inovador que permite exploração indefinida por meio de sumarização periódica do contexto. O ReSum converte históricos de interação crescentes em estados de raciocínio compactos, mantendo a consciência de descobertas anteriores enquanto contorna as limitações de contexto. Para a adaptação do paradigma, propomos o ReSum-GRPO, que integra o GRPO com treinamento de trajetórias segmentadas e difusão de vantagens para familiarizar os agentes com o raciocínio condicionado a sumários. Experimentos extensivos com agentes web de diversas escalas em três benchmarks demonstram que o ReSum proporciona uma melhoria absoluta média de 4,5\% em relação ao ReAct, com ganhos adicionais de até 8,2\% após o treinamento com ReSum-GRPO. Notavelmente, com apenas 1K amostras de treinamento, nosso WebResummer-30B (uma versão do WebSailor-30B treinada com ReSum-GRPO) alcança 33,3\% de Pass@1 no BrowseComp-zh e 18,3\% no BrowseComp-en, superando os agentes web de código aberto existentes.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on
knowledge-intensive tasks but are hindered by context window limitations in
paradigms like ReAct. Complex queries involving multiple entities, intertwined
relationships, and high uncertainty demand extensive search cycles that rapidly
exhaust context budgets before reaching complete solutions. To overcome this
challenge, we introduce ReSum, a novel paradigm that enables indefinite
exploration through periodic context summarization. ReSum converts growing
interaction histories into compact reasoning states, maintaining awareness of
prior discoveries while bypassing context constraints. For paradigm adaptation,
we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and
advantage broadcasting to familiarize agents with summary-conditioned
reasoning. Extensive experiments on web agents of varying scales across three
benchmarks demonstrate that ReSum delivers an average absolute improvement of
4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO
training. Notably, with only 1K training samples, our WebResummer-30B (a
ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on
BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web
agents.