ReSum: Раскрытие интеллекта долгосрочного поиска через контекстуальное суммирование
ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
September 16, 2025
Авторы: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI
Аннотация
Веб-агенты на основе больших языковых моделей (LLM) демонстрируют высокую производительность в задачах, требующих глубоких знаний, но сталкиваются с ограничениями контекстного окна в таких парадигмах, как ReAct. Сложные запросы, включающие множество сущностей, переплетенные отношения и высокую неопределенность, требуют длительных циклов поиска, которые быстро исчерпывают доступный контекст до достижения полного решения. Чтобы преодолеть эту проблему, мы представляем ReSum — новую парадигму, которая позволяет осуществлять неограниченное исследование за счет периодического суммирования контекста. ReSum преобразует растущие истории взаимодействий в компактные состояния рассуждений, сохраняя осведомленность о предыдущих открытиях и обходя ограничения контекста. Для адаптации парадигмы мы предлагаем ReSum-GRPO, интегрируя GRPO с обучением на сегментированных траекториях и широковещательной передачей преимуществ, чтобы агенты могли освоить рассуждения на основе суммированных данных. Эксперименты на веб-агентах различного масштаба на трех бенчмарках показывают, что ReSum обеспечивает среднее абсолютное улучшение на 4,5\% по сравнению с ReAct, с дополнительным приростом до 8,2\% после обучения ReSum-GRPO. Примечательно, что с использованием всего 1K обучающих выборок наш WebResummer-30B (версия WebSailor-30B, обученная с использованием ReSum-GRPO) достигает 33,3\% Pass@1 на BrowseComp-zh и 18,3\% на BrowseComp-en, превосходя существующие открытые веб-агенты.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on
knowledge-intensive tasks but are hindered by context window limitations in
paradigms like ReAct. Complex queries involving multiple entities, intertwined
relationships, and high uncertainty demand extensive search cycles that rapidly
exhaust context budgets before reaching complete solutions. To overcome this
challenge, we introduce ReSum, a novel paradigm that enables indefinite
exploration through periodic context summarization. ReSum converts growing
interaction histories into compact reasoning states, maintaining awareness of
prior discoveries while bypassing context constraints. For paradigm adaptation,
we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and
advantage broadcasting to familiarize agents with summary-conditioned
reasoning. Extensive experiments on web agents of varying scales across three
benchmarks demonstrate that ReSum delivers an average absolute improvement of
4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO
training. Notably, with only 1K training samples, our WebResummer-30B (a
ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on
BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web
agents.