IterResearch: Repensando los Agentes de Horizonte Largo mediante la Reconstrucción Markoviana de Estados
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
November 10, 2025
Autores: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumen
Los recientes avances en agentes de investigación profunda han mostrado potencial para la construcción autónoma de conocimiento mediante el razonamiento dinámico sobre fuentes externas. Sin embargo, los enfoques existentes se basan en un paradigma monocontextual que acumula toda la información en una única ventana de contexto en expansión, lo que genera asfixia contextual y contaminación por ruido que limitan su eficacia en tareas de horizonte largo. Presentamos IterResearch, un novedoso paradigma de investigación profunda iterativa que reformula la investigación de horizonte largo como un Proceso de Decisión de Markov con reconstrucción estratégica del espacio de trabajo. Al mantener un informe evolutivo como memoria y sintetizar periódicamente hallazgos, nuestro enfoque preserva una capacidad de razonamiento consistente a través de profundidades de exploración arbitrarias. Además, desarrollamos la Optimización de Políticas con Conciencia de Eficiencia (EAPO), un marco de aprendizaje por refuerzo que incentiva la exploración eficiente mediante descuento geométrico de recompensas y permite un entrenamiento distribuido estable mediante submuestreo adaptativo. Experimentos exhaustivos demuestran que IterResearch logra mejoras sustanciales sobre los agentes de código abierto existentes, con un promedio de +14.5 pp en seis benchmarks, y reduce la brecha con los sistemas propietarios de vanguardia. Notablemente, nuestro paradigma exhibe una escalabilidad de interacción sin precedentes, extendiéndose hasta 2048 interacciones con ganancias de rendimiento dramáticas (del 3.5% al 42.5%), y sirve como una estrategia de prompting efectiva, mejorando los modelos de vanguardia hasta en 19.2 pp sobre ReAct en tareas de horizonte largo. Estos hallazgos posicionan a IterResearch como una solución versátil para el razonamiento de horizonte largo, efectiva tanto como un agente entrenado como un paradigma de prompting para modelos de vanguardia.
English
Recent advances in deep-research agents have shown promise for autonomous
knowledge construction through dynamic reasoning over external sources.
However, existing approaches rely on a mono-contextual paradigm that
accumulates all information in a single, expanding context window, leading to
context suffocation and noise contamination that limit their effectiveness on
long-horizon tasks. We introduce IterResearch, a novel iterative deep-research
paradigm that reformulates long-horizon research as a Markov Decision Process
with strategic workspace reconstruction. By maintaining an evolving report as
memory and periodically synthesizing insights, our approach preserves
consistent reasoning capacity across arbitrary exploration depths. We further
develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning
framework that incentivizes efficient exploration through geometric reward
discounting and enables stable distributed training via adaptive downsampling.
Extensive experiments demonstrate that IterResearch achieves substantial
improvements over existing open-source agents with average +14.5pp across six
benchmarks and narrows the gap with frontier proprietary systems. Remarkably,
our paradigm exhibits unprecedented interaction scaling, extending to 2048
interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves
as an effective prompting strategy, improving frontier models by up to 19.2pp
over ReAct on long-horizon tasks. These findings position IterResearch as a
versatile solution for long-horizon reasoning, effective both as a trained
agent and as a prompting paradigm for frontier models.