ChatPaper.aiChatPaper

ReSum: 컨텍스트 요약을 통한 장기적 탐색 지능의 해제

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

September 16, 2025
저자: Xixi Wu, Kuan Li, Yida Zhao, Liwen Zhang, Litu Ou, Huifeng Yin, Zhongwang Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Minhao Cheng, Shuai Wang, Hong Cheng, Jingren Zhou
cs.AI

초록

대형 언어 모델(LLM) 기반 웹 에이전트는 지식 집약적 작업에서 강력한 성능을 보이지만, ReAct와 같은 패러다임에서 컨텍스트 창의 제약으로 인해 한계를 겪습니다. 다중 엔티티, 복잡한 관계, 높은 불확실성을 포함하는 복잡한 질의는 완전한 해결책에 도달하기 전에 컨텍스트 예산을 빠르게 소모하는 광범위한 탐색 주기를 요구합니다. 이러한 문제를 극복하기 위해, 우리는 주기적인 컨텍스트 요약을 통해 무한한 탐색을 가능하게 하는 새로운 패러다임인 ReSum을 소개합니다. ReSum은 증가하는 상호작용 기록을 간결한 추론 상태로 변환하여, 이전 발견 사항을 유지하면서 컨텍스트 제약을 우회합니다. 패러다임 적응을 위해, 우리는 GRPO를 세분화된 궤적 훈련과 이점 브로드캐스팅과 통합한 ReSum-GRPO를 제안하여, 요약 기반 추론에 익숙한 에이전트를 만듭니다. 세 가지 벤치마크에서 다양한 규모의 웹 에이전트에 대한 광범위한 실험을 통해, ReSum이 ReAct 대비 평균 4.5%의 절대적 개선을 제공하며, ReSum-GRPO 훈련 후 최대 8.2%의 추가 이득을 보임을 입증했습니다. 특히, 단 1,000개의 훈련 샘플로도, WebSailor-30B의 ReSum-GRPO 훈련 버전인 WebResummer-30B는 BrowseComp-zh에서 33.3%의 Pass@1, BrowseComp-en에서 18.3%의 Pass@1을 달성하여 기존의 오픈소스 웹 에이전트를 능가했습니다.
English
Large Language Model (LLM)-based web agents demonstrate strong performance on knowledge-intensive tasks but are hindered by context window limitations in paradigms like ReAct. Complex queries involving multiple entities, intertwined relationships, and high uncertainty demand extensive search cycles that rapidly exhaust context budgets before reaching complete solutions. To overcome this challenge, we introduce ReSum, a novel paradigm that enables indefinite exploration through periodic context summarization. ReSum converts growing interaction histories into compact reasoning states, maintaining awareness of prior discoveries while bypassing context constraints. For paradigm adaptation, we propose ReSum-GRPO, integrating GRPO with segmented trajectory training and advantage broadcasting to familiarize agents with summary-conditioned reasoning. Extensive experiments on web agents of varying scales across three benchmarks demonstrate that ReSum delivers an average absolute improvement of 4.5\% over ReAct, with further gains of up to 8.2\% following ReSum-GRPO training. Notably, with only 1K training samples, our WebResummer-30B (a ReSum-GRPO-trained version of WebSailor-30B) achieves 33.3\% Pass@1 on BrowseComp-zh and 18.3\% on BrowseComp-en, surpassing existing open-source web agents.
PDF443September 17, 2025