IterResearch: Neubetrachtung von Agenten mit langem Planungshorizont durch Markovsche Zustandsrekonstruktion

papers.abstract

Jüngste Fortschritte bei Deep-Research-Agents zeigen vielversprechende Ansätze für autonome Wissenskonstruktion durch dynamisches Reasoning über externe Quellen. Bisherige Ansätze beruhen jedoch auf einem monokontextuellen Paradigma, das alle Informationen in einem einzigen, sich erweiternden Kontextfenster akkumuliert. Dies führt zu Kontextüberlastung und Rauschkontamination, die ihre Wirksamkeit bei langfristigen Aufgaben einschränken. Wir stellen IterResearch vor, ein neuartiges iteratives Deep-Research-Paradigma, das langfristige Forschung als Markov-Entscheidungsprozess mit strategischer Arbeitsbereichsrekonstruktion reformuliert. Durch die Führung eines sich entwickelnden Berichts als Gedächtnis und die regelmäßige Synthese von Erkenntnissen bewahrt unser Ansatz eine konsistente Reasoning-Fähigkeit über beliebige Erkundungstiefen hinweg. Wir entwickeln weiterhin Efficiency-Aware Policy Optimization (EAPO), ein Reinforcement-Learning-Framework, das effiziente Exploration durch geometrische Belohnungsdiskontierung fördert und stabile verteilte Training durch adaptives Downsampling ermöglicht. Umfangreiche Experimente zeigen, dass IterResearch substantiale Verbesserungen gegenüber bestehenden Open-Source-Agents erzielt, mit einem durchschnittlichen Zuwachs von +14,5 Prozentpunkten über sechs Benchmarks hinweg, und die Lücke zu führenden proprietären Systemen verkleinert. Bemerkenswerterweise zeigt unser Paradigma ein beispielloses Interaktionsskalierungsverhalten, das sich bis zu 2048 Interaktionen erstreckt mit dramatischen Leistungssteigerungen (von 3,5 % auf 42,5 %), und dient als effektive Prompting-Strategie, die führende Modelle um bis zu 19,2 Prozentpunkte gegenüber ReAct bei langfristigen Aufgaben verbessert. Diese Ergebnisse positionieren IterResearch als vielseitige Lösung für langfristiges Reasoning, die sowohl als trainierter Agent als auch als Prompting-Paradigma für Frontier-Modelle effektiv ist.

English

Recent advances in deep-research agents have shown promise for autonomous knowledge construction through dynamic reasoning over external sources. However, existing approaches rely on a mono-contextual paradigm that accumulates all information in a single, expanding context window, leading to context suffocation and noise contamination that limit their effectiveness on long-horizon tasks. We introduce IterResearch, a novel iterative deep-research paradigm that reformulates long-horizon research as a Markov Decision Process with strategic workspace reconstruction. By maintaining an evolving report as memory and periodically synthesizing insights, our approach preserves consistent reasoning capacity across arbitrary exploration depths. We further develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning framework that incentivizes efficient exploration through geometric reward discounting and enables stable distributed training via adaptive downsampling. Extensive experiments demonstrate that IterResearch achieves substantial improvements over existing open-source agents with average +14.5pp across six benchmarks and narrows the gap with frontier proprietary systems. Remarkably, our paradigm exhibits unprecedented interaction scaling, extending to 2048 interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves as an effective prompting strategy, improving frontier models by up to 19.2pp over ReAct on long-horizon tasks. These findings position IterResearch as a versatile solution for long-horizon reasoning, effective both as a trained agent and as a prompting paradigm for frontier models.

IterResearch: Neubetrachtung von Agenten mit langem Planungshorizont durch Markovsche Zustandsrekonstruktion

IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

papers.abstract

Support