За пределами ограничений хода: обучение агентов глубокого поиска с динамическим контекстным окном

Аннотация

Хотя последние достижения в моделях рассуждений продемонстрировали когнитивные способности через обучение с подкреплением, существующие подходы испытывают трудности с активацией глубоких навыков рассуждения в многошаговых агентах с долгосрочными взаимодействиями. Мы предлагаем DeepMiner, новую структуру, которая развивает такие способности за счет введения сложных тренировочных задач и динамического контекстного окна. DeepMiner представляет метод обратного конструирования для создания сложных, но проверяемых пар вопрос-ответ из аутентичных веб-источников, что обеспечивает как сложность, так и надежность тренировочных данных, одновременно внедряя когнитивные способности в сценарии многошаговых рассуждений. Мы также разработали изящную, но эффективную стратегию динамического управления контекстом как для обучения, так и для вывода, используя механизмы скользящего окна и устраняя зависимость от внешних моделей суммаризации, тем самым эффективно расширяя возможности модели для обработки непрерывно растущих долгосрочных контекстов. С помощью обучения с подкреплением на Qwen3-32B мы создали DeepMiner-32B, который демонстрирует значительные улучшения производительности на нескольких тестах для поисковых агентов. DeepMiner достигает точности 33.5% на BrowseComp-en, превосходя предыдущего лучшего открытого агента почти на 20 процентных пунктов, и показывает стабильные улучшения на BrowseComp-zh, XBench-DeepSearch и GAIA. Особенно важно, что наше динамическое управление контекстом позволяет поддерживать взаимодействия продолжительностью почти 100 шагов в пределах стандартной длины контекста 32k, эффективно решая ограничения контекста, которые сдерживают существующие системы многошагового взаимодействия.

English

While recent advances in reasoning models have demonstrated cognitive behaviors through reinforcement learning, existing approaches struggle to invoke deep reasoning capabilities in multi-turn agents with long-horizon interactions. We propose DeepMiner, a novel framework that elicits such abilities by introducing high-difficulty training tasks and dynamic context window. DeepMiner presents a reverse construction method to generate complex but verifiable question-answer pairs from authentic web sources, which ensures the challenge and reliability of training data while injecting cognitive capabilities into multi-turn reasoning scenarios. We further design an elegant yet effective dynamic context management strategy for both training and inference, utilizing sliding window mechanisms while eliminating the dependency on external summarization models, thereby efficiently empowering the model to handle continuously expanding long-horizon contexts. Through reinforcement learning on Qwen3-32B, we develop DeepMiner-32B, which achieves substantial performance improvements across multiple search agent benchmarks. DeepMiner attains 33.5% accuracy on BrowseComp-en, surpassing the previous best open-source agent by almost 20 percentage points, and demonstrates consistent improvements on BrowseComp-zh, XBench-DeepSearch, and GAIA. Notably, our dynamic context management enables sustained interactions of nearly 100 turns within standard 32k context length, effectively addressing the context limitations that constrain existing multi-turn interaction systems.

За пределами ограничений хода: обучение агентов глубокого поиска с динамическим контекстным окном

Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

Аннотация

Support