IterResearch: Neubetrachtung von Agenten mit langem Planungshorizont durch Markovsche Zustandsrekonstruktion
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
November 10, 2025
papers.authors: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
papers.abstract
Jüngste Fortschritte bei Deep-Research-Agents zeigen vielversprechende Ansätze für autonome Wissenskonstruktion durch dynamisches Reasoning über externe Quellen. Bisherige Ansätze beruhen jedoch auf einem monokontextuellen Paradigma, das alle Informationen in einem einzigen, sich erweiternden Kontextfenster akkumuliert. Dies führt zu Kontextüberlastung und Rauschkontamination, die ihre Wirksamkeit bei langfristigen Aufgaben einschränken. Wir stellen IterResearch vor, ein neuartiges iteratives Deep-Research-Paradigma, das langfristige Forschung als Markov-Entscheidungsprozess mit strategischer Arbeitsbereichsrekonstruktion reformuliert. Durch die Führung eines sich entwickelnden Berichts als Gedächtnis und die regelmäßige Synthese von Erkenntnissen bewahrt unser Ansatz eine konsistente Reasoning-Fähigkeit über beliebige Erkundungstiefen hinweg. Wir entwickeln weiterhin Efficiency-Aware Policy Optimization (EAPO), ein Reinforcement-Learning-Framework, das effiziente Exploration durch geometrische Belohnungsdiskontierung fördert und stabile verteilte Training durch adaptives Downsampling ermöglicht. Umfangreiche Experimente zeigen, dass IterResearch substantiale Verbesserungen gegenüber bestehenden Open-Source-Agents erzielt, mit einem durchschnittlichen Zuwachs von +14,5 Prozentpunkten über sechs Benchmarks hinweg, und die Lücke zu führenden proprietären Systemen verkleinert. Bemerkenswerterweise zeigt unser Paradigma ein beispielloses Interaktionsskalierungsverhalten, das sich bis zu 2048 Interaktionen erstreckt mit dramatischen Leistungssteigerungen (von 3,5 % auf 42,5 %), und dient als effektive Prompting-Strategie, die führende Modelle um bis zu 19,2 Prozentpunkte gegenüber ReAct bei langfristigen Aufgaben verbessert. Diese Ergebnisse positionieren IterResearch als vielseitige Lösung für langfristiges Reasoning, die sowohl als trainierter Agent als auch als Prompting-Paradigma für Frontier-Modelle effektiv ist.
English
Recent advances in deep-research agents have shown promise for autonomous
knowledge construction through dynamic reasoning over external sources.
However, existing approaches rely on a mono-contextual paradigm that
accumulates all information in a single, expanding context window, leading to
context suffocation and noise contamination that limit their effectiveness on
long-horizon tasks. We introduce IterResearch, a novel iterative deep-research
paradigm that reformulates long-horizon research as a Markov Decision Process
with strategic workspace reconstruction. By maintaining an evolving report as
memory and periodically synthesizing insights, our approach preserves
consistent reasoning capacity across arbitrary exploration depths. We further
develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning
framework that incentivizes efficient exploration through geometric reward
discounting and enables stable distributed training via adaptive downsampling.
Extensive experiments demonstrate that IterResearch achieves substantial
improvements over existing open-source agents with average +14.5pp across six
benchmarks and narrows the gap with frontier proprietary systems. Remarkably,
our paradigm exhibits unprecedented interaction scaling, extending to 2048
interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves
as an effective prompting strategy, improving frontier models by up to 19.2pp
over ReAct on long-horizon tasks. These findings position IterResearch as a
versatile solution for long-horizon reasoning, effective both as a trained
agent and as a prompting paradigm for frontier models.