IterResearch: Repensando Agentes de Horizonte Longo por meio da Reconstrução Markoviana de Estados
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
November 10, 2025
Autores: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Resumo
Avanços recentes em agentes de pesquisa profunda têm demonstrado potencial para a construção autônoma de conhecimento por meio de raciocínio dinâmico sobre fontes externas. No entanto, as abordagens existentes dependem de um paradigma monocontextual que acumula todas as informações em uma única janela de contexto em expansão, levando à sufocação contextual e contaminação por ruído que limitam sua eficácia em tarefas de longo horizonte. Apresentamos o IterResearch, um novo paradigma iterativo de pesquisa profunda que reformula a investigação de longo horizonte como um Processo de Decisão Markoviano com reconstrução estratégica do espaço de trabalho. Ao manter um relatório em evolução como memória e sintetizar insights periodicamente, nossa abordagem preserva a capacidade de raciocínio consistente em quaisquer profundidades de exploração. Desenvolvemos ainda a Otimização de Políticas com Consciência de Eficiência (EAPO), uma estrutura de aprendizado por reforço que incentiva a exploração eficiente por meio de desconto geométrico de recompensa e permite treinamento distribuído estável via subamostragem adaptativa. Experimentos extensivos demonstram que o IterResearch alcança melhorias substanciais sobre agentes de código aberto existentes, com média de +14,5 pp em seis benchmarks e reduz a lacuna com sistemas proprietários de fronteira. Notavelmente, nosso paradigma exibe escala de interação sem precedentes, estendendo-se a 2048 interações com ganhos dramáticos de desempenho (de 3,5% para 42,5%), e serve como uma estratégia eficaz de *prompting*, melhorando modelos de fronteira em até 19,2 pp sobre o ReAct em tarefas de longo horizonte. Esses resultados posicionam o IterResearch como uma solução versátil para raciocínio de longo horizonte, eficaz tanto como um agente treinado quanto como um paradigma de *prompting* para modelos de fronteira.
English
Recent advances in deep-research agents have shown promise for autonomous
knowledge construction through dynamic reasoning over external sources.
However, existing approaches rely on a mono-contextual paradigm that
accumulates all information in a single, expanding context window, leading to
context suffocation and noise contamination that limit their effectiveness on
long-horizon tasks. We introduce IterResearch, a novel iterative deep-research
paradigm that reformulates long-horizon research as a Markov Decision Process
with strategic workspace reconstruction. By maintaining an evolving report as
memory and periodically synthesizing insights, our approach preserves
consistent reasoning capacity across arbitrary exploration depths. We further
develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning
framework that incentivizes efficient exploration through geometric reward
discounting and enables stable distributed training via adaptive downsampling.
Extensive experiments demonstrate that IterResearch achieves substantial
improvements over existing open-source agents with average +14.5pp across six
benchmarks and narrows the gap with frontier proprietary systems. Remarkably,
our paradigm exhibits unprecedented interaction scaling, extending to 2048
interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves
as an effective prompting strategy, improving frontier models by up to 19.2pp
over ReAct on long-horizon tasks. These findings position IterResearch as a
versatile solution for long-horizon reasoning, effective both as a trained
agent and as a prompting paradigm for frontier models.