ChatPaper.aiChatPaper

IterResearch: 장기적 에이전트 재고찰: 마르코프 상태 재구성을 통한 접근

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

November 10, 2025
저자: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

초록

최근 딥 리서치 에이전트 분야의 발전은 외부 소스에 대한 동적 추론을 통한 자율적 지식 구축의 가능성을 보여주고 있다. 그러나 기존 접근법은 모든 정보를 단일 확장 컨텍스트 윈도우에 누적하는 단일 맥락 패러다임에 의존하여, 장기 과제에서 효과성을 제한하는 컨텍스트 포화 및 노이즈 오염을 초래한다. 본 연구에서는 장기 리서치를 전략적 작업 공간 재구성을 통한 마르코프 결정 과정으로 재정의하는 새로운 반복적 딥 리서치 패러다임인 IterResearch를 소개한다. 발전적인 보고서를 메모리로 유지하고 주기적으로 통찰력을 종합함으로써, 우리의 접근법은 임의의 탐색 깊이에서도 일관된 추론 능력을 유지한다. 더 나아가 기하학적 보상 할인을 통한 효율적 탐색을 장려하고 적응형 다운샘플링을 통해 안정적인 분산 학습을 가능하게 하는 강화 학습 프레임워크인 효율성 인식 정책 최적화(EAPO)를 개발하였다. 광범위한 실험 결과, IterResearch는 기존 오픈소스 에이전트 대비 6개 벤치마크에서 평균 +14.5%p의 상당한 성능 향상을 달성하고 선도적 독점 시스템과의 격차를 좁히는 것으로 나타났다. 특히 우리의 패러다임은 2048회의 상호작용까지 확장되며 극적인 성능 향상(3.5%에서 42.5%로)을 보이는 전례 없는 상호작용 확장성을 나타냈으며, 장기 과제에서 ReAct 대비 선도적 모델의 성능을 최대 19.2%p 향상시키는 효과적인 프롬프팅 전략으로도 기능한다. 이러한 연구 결과는 IterResearch를 훈련된 에이전트로서뿐만 아니라 선도적 모델을 위한 프롬프팅 패러다임으로서도 효과적인 장기 추론을 위한 다목적 솔루션으로 위치시킨다.
English
Recent advances in deep-research agents have shown promise for autonomous knowledge construction through dynamic reasoning over external sources. However, existing approaches rely on a mono-contextual paradigm that accumulates all information in a single, expanding context window, leading to context suffocation and noise contamination that limit their effectiveness on long-horizon tasks. We introduce IterResearch, a novel iterative deep-research paradigm that reformulates long-horizon research as a Markov Decision Process with strategic workspace reconstruction. By maintaining an evolving report as memory and periodically synthesizing insights, our approach preserves consistent reasoning capacity across arbitrary exploration depths. We further develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning framework that incentivizes efficient exploration through geometric reward discounting and enables stable distributed training via adaptive downsampling. Extensive experiments demonstrate that IterResearch achieves substantial improvements over existing open-source agents with average +14.5pp across six benchmarks and narrows the gap with frontier proprietary systems. Remarkably, our paradigm exhibits unprecedented interaction scaling, extending to 2048 interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves as an effective prompting strategy, improving frontier models by up to 19.2pp over ReAct on long-horizon tasks. These findings position IterResearch as a versatile solution for long-horizon reasoning, effective both as a trained agent and as a prompting paradigm for frontier models.
PDF7310December 2, 2025