IterResearch: Ripensare gli Agenti a Lungo Orizzonte tramite la Ricostruzione Markoviana dello Stato
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
November 10, 2025
Autori: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Abstract
I recenti progressi negli agenti di ricerca approfondita hanno mostrato potenzialità per la costruzione autonoma di conoscenza attraverso ragionamento dinamico su fonti esterne. Tuttavia, gli approcci esistenti si basano su un paradigma mono-contestuale che accumula tutte le informazioni in un'unica finestra contestuale in espansione, portando a soffocamento contestuale e contaminazione da rumore che ne limitano l'efficacia su compiti a lungo termine. Introduciamo IterResearch, un nuovo paradigma iterativo di ricerca approfondita che riformula la ricerca a lungo termine come un Processo Decisionale di Markov con ricostruzione strategica dello spazio di lavoro. Mantenendo un report in evoluzione come memoria e sintetizzando periodicamente le intuizioni, il nostro approccio preserva capacità di ragionamento consistenti a qualsiasi profondità di esplorazione. Sviluppiamo inoltre l'Ottimizzazione della Politica con Consapevolezza dell'Efficienza (EAPO), un framework di apprendimento per rinforzo che incentiva l'esplorazione efficiente attraverso lo sconto geometrico della ricompensa e abilita l'addestramento distribuito stabile mediante campionamento ridotto adattivo. Esperimenti estensivi dimostrano che IterResearch raggiunge miglioramenti sostanziali rispetto agli agenti open-source esistenti con una media di +14,5 punti percentuali su sei benchmark e riduce il divario con i sistemi proprietari all'avanguardia. Notevolmente, il nostro paradigma mostra una scalabilità dell'interazione senza precedenti, estendendosi fino a 2048 interazioni con guadagni prestazionali drammatici (dal 3,5% al 42,5%), e funge da strategia di prompting efficace, migliorando i modelli all'avanguardia fino a 19,2 punti percentuali rispetto a ReAct su compiti a lungo termine. Questi risultati posizionano IterResearch come una soluzione versatile per il ragionamento a lungo termine, efficace sia come agente addestrato che come paradigma di prompting per modelli all'avanguardia.
English
Recent advances in deep-research agents have shown promise for autonomous
knowledge construction through dynamic reasoning over external sources.
However, existing approaches rely on a mono-contextual paradigm that
accumulates all information in a single, expanding context window, leading to
context suffocation and noise contamination that limit their effectiveness on
long-horizon tasks. We introduce IterResearch, a novel iterative deep-research
paradigm that reformulates long-horizon research as a Markov Decision Process
with strategic workspace reconstruction. By maintaining an evolving report as
memory and periodically synthesizing insights, our approach preserves
consistent reasoning capacity across arbitrary exploration depths. We further
develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning
framework that incentivizes efficient exploration through geometric reward
discounting and enables stable distributed training via adaptive downsampling.
Extensive experiments demonstrate that IterResearch achieves substantial
improvements over existing open-source agents with average +14.5pp across six
benchmarks and narrows the gap with frontier proprietary systems. Remarkably,
our paradigm exhibits unprecedented interaction scaling, extending to 2048
interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves
as an effective prompting strategy, improving frontier models by up to 19.2pp
over ReAct on long-horizon tasks. These findings position IterResearch as a
versatile solution for long-horizon reasoning, effective both as a trained
agent and as a prompting paradigm for frontier models.