IterResearch : Repenser les agents à horizon long via la reconstruction d'état markovienne
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
November 10, 2025
papers.authors: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
papers.abstract
Les récents progrès des agents de recherche approfondie montrent un potentiel pour la construction autonome de connaissances grâce au raisonnement dynamique sur des sources externes. Cependant, les approches existantes reposent sur un paradigme monocontextuel qui accumule toutes les informations dans une fenêtre de contexte unique et expansive, entraînant un étouffement contextuel et une contamination par le bruit qui limitent leur efficacité sur les tâches à long horizon. Nous présentons IterResearch, un nouveau paradigme de recherche approfondie itérative qui reformule la recherche à long horizon comme un Processus de Décision Markovien avec reconstruction stratégique de l'espace de travail. En maintenant un rapport évolutif comme mémoire et en synthétisant périodiquement les insights, notre approche préserve une capacité de raisonnement cohérente quelle que soit la profondeur d'exploration. Nous développons également l'Optimisation de Politique Sensible à l'Efficacité (EAPO), un cadre d'apprentissage par renforcement qui incite à l'exploration efficace grâce à un escompte géométrique des récompenses et permet un entraînement distribué stable via un sous-échantillonnage adaptatif. Des expériences approfondies démontrent qu'IterResearch obtient des améliorations substantielles par rapport aux agents open-source existants, avec une progression moyenne de +14,5 points de pourcentage sur six benchmarks, et réduit l'écart avec les systèmes propriétaires de pointe. Fait remarquable, notre paradigme présente une scalabilité d'interaction sans précédent, s'étendant jusqu'à 2048 interactions avec des gains de performance spectaculaires (de 3,5 % à 42,5 %), et sert de stratégie d'incitation efficace, améliorant les modèles de pointe jusqu'à 19,2 pp par rapport à ReAct sur les tâches à long horizon. Ces résultats positionnent IterResearch comme une solution polyvalente pour le raisonnement à long horizon, efficace à la fois comme agent entraîné et comme paradigme d'incitation pour les modèles frontières.
English
Recent advances in deep-research agents have shown promise for autonomous
knowledge construction through dynamic reasoning over external sources.
However, existing approaches rely on a mono-contextual paradigm that
accumulates all information in a single, expanding context window, leading to
context suffocation and noise contamination that limit their effectiveness on
long-horizon tasks. We introduce IterResearch, a novel iterative deep-research
paradigm that reformulates long-horizon research as a Markov Decision Process
with strategic workspace reconstruction. By maintaining an evolving report as
memory and periodically synthesizing insights, our approach preserves
consistent reasoning capacity across arbitrary exploration depths. We further
develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning
framework that incentivizes efficient exploration through geometric reward
discounting and enables stable distributed training via adaptive downsampling.
Extensive experiments demonstrate that IterResearch achieves substantial
improvements over existing open-source agents with average +14.5pp across six
benchmarks and narrows the gap with frontier proprietary systems. Remarkably,
our paradigm exhibits unprecedented interaction scaling, extending to 2048
interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves
as an effective prompting strategy, improving frontier models by up to 19.2pp
over ReAct on long-horizon tasks. These findings position IterResearch as a
versatile solution for long-horizon reasoning, effective both as a trained
agent and as a prompting paradigm for frontier models.