IterResearch: Een nieuwe kijk op lange-termijn agenten via Markoviaanse toestandsreconstructie
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
November 10, 2025
Auteurs: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Samenvatting
Recente vooruitgang in diepgaande onderzoeksagentschappen toont belofte voor autonome kennisconstructie door middel van dynamisch redeneren over externe bronnen. Bestaande methoden vertrouwen echter op een mono-contextueel paradigma dat alle informatie accumuleert in een enkel, uitdijend contextvenster, wat leidt tot contextverstikking en ruisvervuiling die de effectiviteit bij langetermijntaken beperkt. Wij introduceren IterResearch, een nieuw iteratief dieponderzoeksparadigma dat langetermijnonderzoek herformuleert als een Markov-beslissingsproces met strategische werkruimtereconstructie. Door een evoluerend rapport als geheugen aan te houden en inzichten periodiek te synthetiseren, behoudt onze aanpak consistente redeneercapaciteit over willekeurige verkenningdieptes. Wij ontwikkelen verder Efficiency-Aware Policy Optimization (EAPO), een reinforcement learning-raamwerk dat efficiënte exploratie aanmoedigt via geometrische beloningskorting en stabiele gedistribueerde training mogelijk maakt via adaptieve downsampling. Uitgebreide experimenten tonen aan dat IterResearch substantiële verbeteringen bereikt ten opzichte van bestaande open-source agentschappen met gemiddeld +14,5 procentpunt over zes benchmarks, en de kloof met frontier propriëtaire systemen verkleint. Opmerkelijk is dat ons paradigma ongekende interactieschaling vertoont, tot 2048 interacties reikt met dramatische prestatieverbeteringen (van 3,5% naar 42,5%), en dient als een effectieve promptingstrategie die frontiermodellen met tot 19,2 procentpunt verbetert ten opzichte van ReAct bij langetermijntaken. Deze bevindingen positioneren IterResearch als een veelzijdige oplossing voor langetermijnredenering, effectief zowel als getraind agentschap als promptingparadigma voor frontiermodellen.
English
Recent advances in deep-research agents have shown promise for autonomous
knowledge construction through dynamic reasoning over external sources.
However, existing approaches rely on a mono-contextual paradigm that
accumulates all information in a single, expanding context window, leading to
context suffocation and noise contamination that limit their effectiveness on
long-horizon tasks. We introduce IterResearch, a novel iterative deep-research
paradigm that reformulates long-horizon research as a Markov Decision Process
with strategic workspace reconstruction. By maintaining an evolving report as
memory and periodically synthesizing insights, our approach preserves
consistent reasoning capacity across arbitrary exploration depths. We further
develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning
framework that incentivizes efficient exploration through geometric reward
discounting and enables stable distributed training via adaptive downsampling.
Extensive experiments demonstrate that IterResearch achieves substantial
improvements over existing open-source agents with average +14.5pp across six
benchmarks and narrows the gap with frontier proprietary systems. Remarkably,
our paradigm exhibits unprecedented interaction scaling, extending to 2048
interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves
as an effective prompting strategy, improving frontier models by up to 19.2pp
over ReAct on long-horizon tasks. These findings position IterResearch as a
versatile solution for long-horizon reasoning, effective both as a trained
agent and as a prompting paradigm for frontier models.