IterResearch: Переосмысление агентов с длительным горизонтом планирования через марковскую реконструкцию состояний
IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction
November 10, 2025
Авторы: Guoxin Chen, Zile Qiao, Xuanzhong Chen, Donglei Yu, Haotian Xu, Wayne Xin Zhao, Ruihua Song, Wenbiao Yin, Huifeng Yin, Liwen Zhang, Kuan Li, Minpeng Liao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
Аннотация
Последние достижения в области агентов глубокого исследования продемонстрировали потенциал автономного построения знаний за счет динамических рассуждений над внешними источниками. Однако существующие подходы основаны на моно-контекстной парадигме, которая аккумулирует всю информацию в едином расширяющемся контекстном окне, что приводит к контекстному переполнению и шумовому загрязнению, ограничивающим их эффективность в задачах с длительным горизонтом. Мы представляем IterResearch — новую итеративную парадигму глубокого исследования, которая переформулирует долгосрочное исследование как Марковский процесс принятия решений со стратегической реконструкцией рабочего пространства. Поддерживая развивающийся отчет в качестве памяти и периодически синтезируя инсайты, наш подход сохраняет согласованную способность к рассуждению на произвольной глубине исследования. Мы также разработали Оптимизацию стратегии с учетом эффективности (EAPO) — framework обучения с подкреплением, который стимулирует эффективное исследование за счет геометрического дисконтирования вознаграждений и обеспечивает стабильное распределенное обучение посредством адаптивной децимации. Масштабные эксперименты демонстрируют, что IterResearch достигает существенного улучшения по сравнению с существующими opensource-агентами — в среднем на +14.5 п.п. по шести бенчмаркам — и сокращает разрыв с передовыми проприетарными системами. Примечательно, что наша парадигма демонстрирует беспрецедентную масштабируемость взаимодействий, распространяясь на 2048 шагов со значительным ростом производительности (с 3.5% до 42.5%), и служит эффективной стратегией промптинга, улучшая показатели передовых моделей до 19.2 п.п. по сравнению с ReAct в задачах с длительным горизонтом. Эти результаты позиционируют IterResearch как универсальное решение для долгосрочных рассуждений, эффективное как в качестве обученного агента, так и в качестве парадигмы промптинга для передовых моделей.
English
Recent advances in deep-research agents have shown promise for autonomous
knowledge construction through dynamic reasoning over external sources.
However, existing approaches rely on a mono-contextual paradigm that
accumulates all information in a single, expanding context window, leading to
context suffocation and noise contamination that limit their effectiveness on
long-horizon tasks. We introduce IterResearch, a novel iterative deep-research
paradigm that reformulates long-horizon research as a Markov Decision Process
with strategic workspace reconstruction. By maintaining an evolving report as
memory and periodically synthesizing insights, our approach preserves
consistent reasoning capacity across arbitrary exploration depths. We further
develop Efficiency-Aware Policy Optimization (EAPO), a reinforcement learning
framework that incentivizes efficient exploration through geometric reward
discounting and enables stable distributed training via adaptive downsampling.
Extensive experiments demonstrate that IterResearch achieves substantial
improvements over existing open-source agents with average +14.5pp across six
benchmarks and narrows the gap with frontier proprietary systems. Remarkably,
our paradigm exhibits unprecedented interaction scaling, extending to 2048
interactions with dramatic performance gains (from 3.5\% to 42.5\%), and serves
as an effective prompting strategy, improving frontier models by up to 19.2pp
over ReAct on long-horizon tasks. These findings position IterResearch as a
versatile solution for long-horizon reasoning, effective both as a trained
agent and as a prompting paradigm for frontier models.