За пределами ограничений хода: обучение агентов глубокого поиска с динамическим контекстным окном
Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window
October 9, 2025
Авторы: Qiaoyu Tang, Hao Xiang, Le Yu, Bowen Yu, Yaojie Lu, Xianpei Han, Le Sun, WenJuan Zhang, Pengbo Wang, Shixuan Liu, Zhenru Zhang, Jianhong Tu, Hongyu Lin, Junyang Lin
cs.AI
Аннотация
Хотя последние достижения в моделях рассуждений продемонстрировали когнитивные способности через обучение с подкреплением, существующие подходы испытывают трудности с активацией глубоких навыков рассуждения в многошаговых агентах с долгосрочными взаимодействиями. Мы предлагаем DeepMiner, новую структуру, которая развивает такие способности за счет введения сложных тренировочных задач и динамического контекстного окна. DeepMiner представляет метод обратного конструирования для создания сложных, но проверяемых пар вопрос-ответ из аутентичных веб-источников, что обеспечивает как сложность, так и надежность тренировочных данных, одновременно внедряя когнитивные способности в сценарии многошаговых рассуждений. Мы также разработали изящную, но эффективную стратегию динамического управления контекстом как для обучения, так и для вывода, используя механизмы скользящего окна и устраняя зависимость от внешних моделей суммаризации, тем самым эффективно расширяя возможности модели для обработки непрерывно растущих долгосрочных контекстов. С помощью обучения с подкреплением на Qwen3-32B мы создали DeepMiner-32B, который демонстрирует значительные улучшения производительности на нескольких тестах для поисковых агентов. DeepMiner достигает точности 33.5% на BrowseComp-en, превосходя предыдущего лучшего открытого агента почти на 20 процентных пунктов, и показывает стабильные улучшения на BrowseComp-zh, XBench-DeepSearch и GAIA. Особенно важно, что наше динамическое управление контекстом позволяет поддерживать взаимодействия продолжительностью почти 100 шагов в пределах стандартной длины контекста 32k, эффективно решая ограничения контекста, которые сдерживают существующие системы многошагового взаимодействия.
English
While recent advances in reasoning models have demonstrated cognitive
behaviors through reinforcement learning, existing approaches struggle to
invoke deep reasoning capabilities in multi-turn agents with long-horizon
interactions. We propose DeepMiner, a novel framework that elicits such
abilities by introducing high-difficulty training tasks and dynamic context
window. DeepMiner presents a reverse construction method to generate complex
but verifiable question-answer pairs from authentic web sources, which ensures
the challenge and reliability of training data while injecting cognitive
capabilities into multi-turn reasoning scenarios. We further design an elegant
yet effective dynamic context management strategy for both training and
inference, utilizing sliding window mechanisms while eliminating the dependency
on external summarization models, thereby efficiently empowering the model to
handle continuously expanding long-horizon contexts. Through reinforcement
learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial
performance improvements across multiple search agent benchmarks. DeepMiner
attains 33.5% accuracy on BrowseComp-en, surpassing the previous best
open-source agent by almost 20 percentage points, and demonstrates consistent
improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our
dynamic context management enables sustained interactions of nearly 100 turns
within standard 32k context length, effectively addressing the context
limitations that constrain existing multi-turn interaction systems.