IterResearch: Repensando Agentes de Horizonte Longo por meio da Reconstrução Markoviana de Estados

Resumo

Avanços recentes em agentes de pesquisa profunda têm demonstrado potencial para a construção autônoma de conhecimento por meio de raciocínio dinâmico sobre fontes externas. No entanto, as abordagens existentes dependem de um paradigma monocontextual que acumula todas as informações em uma única janela de contexto em expansão, levando à sufocação contextual e contaminação por ruído que limitam sua eficácia em tarefas de longo horizonte. Apresentamos o IterResearch, um novo paradigma iterativo de pesquisa profunda que reformula a investigação de longo horizonte como um Processo de Decisão Markoviano com reconstrução estratégica do espaço de trabalho. Ao manter um relatório em evolução como memória e sintetizar insights periodicamente, nossa abordagem preserva a capacidade de raciocínio consistente em quaisquer profundidades de exploração. Desenvolvemos ainda a Otimização de Políticas com Consciência de Eficiência (EAPO), uma estrutura de aprendizado por reforço que incentiva a exploração eficiente por meio de desconto geométrico de recompensa e permite treinamento distribuído estável via subamostragem adaptativa. Experimentos extensivos demonstram que o IterResearch alcança melhorias substanciais sobre agentes de código aberto existentes, com média de +14,5 pp em seis benchmarks e reduz a lacuna com sistemas proprietários de fronteira. Notavelmente, nosso paradigma exibe escala de interação sem precedentes, estendendo-se a 2048 interações com ganhos dramáticos de desempenho (de 3,5% para 42,5%), e serve como uma estratégia eficaz de *prompting*, melhorando modelos de fronteira em até 19,2 pp sobre o ReAct em tarefas de longo horizonte. Esses resultados posicionam o IterResearch como uma solução versátil para raciocínio de longo horizonte, eficaz tanto como um agente treinado quanto como um paradigma de *prompting* para modelos de fronteira.

English

Recent advances in deep-research agents have shown promise for autonomous knowledge construction through dynamic reasoning over external sources. However, existing approaches rely on a mono-contextual paradigm that accumulates all information in a single, expanding context window, leading to context suffocation and noise contamination that limit their effectiveness on long-horizon tasks. We introduce IterResearch, a novel iterative deep-research paradigm that reformulates long-horizon research as a Markov Decision Process with strategic workspace reconstruction. By maintaining an evolving report as memory and periodically synthesizing insights, our approach preserves consistent reasoning capacity across arbitrary exploration depths. We further develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning framework that incentivizes efficient exploration through geometric reward discounting and enables stable distributed training via adaptive downsampling. Extensive experiments demonstrate that IterResearch achieves substantial improvements over existing open-source agents with average +14.5pp across six benchmarks and narrows the gap with frontier proprietary systems. Remarkably, our paradigm exhibits unprecedented interaction scaling, extending to 2048 interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves as an effective prompting strategy, improving frontier models by up to 19.2pp over ReAct on long-horizon tasks. These findings position IterResearch as a versatile solution for long-horizon reasoning, effective both as a trained agent and as a prompting paradigm for frontier models.