Искать больше, думать меньше: Переосмысление долгосрочного агентного поиска для повышения эффективности и обобщающей способности

Аннотация

Современные агенты для углубленного поиска в основном повышают производительность за счет масштабирования глубины рассуждений, однако это приводит к высоким затратам на вывод и задержкам в сценариях с интенсивным поиском. Кроме того, обобщение в разнородных исследовательских условиях остается сложной задачей. В данной работе мы предлагаем Search More, Think Less (SMTL) — фреймворк для долгосрочного агентского поиска, ориентированный как на эффективность, так и на обобщаемость. SMTL заменяет последовательные рассуждения параллельным сбором свидетельств, обеспечивая эффективное управление контекстом при ограниченном бюджете контекста. Для поддержки обобщения между типами задач мы дополнительно вводим унифицированный конвейер синтеза данных, который создает поисковые задачи, охватывающие как детерминированные вопросы с ответами, так и открытые исследовательские сценарии с соответствующими метриками оценки. Мы обучаем сквозного агента с помощью контролируемой тонкой настройки и обучения с подкреплением, достигая высокой, часто передовой производительности на наборах данных, включая BrowseComp (48,6%), GAIA (75,7%), Xbench (82,0%) и DeepResearch Bench (45,9%). По сравнению с Mirothinker-v1.0, SMTL с максимально 100 шагами взаимодействия сокращает среднее количество шагов рассуждения на BrowseComp на 70,7%, одновременно повышая точность.

English

Recent deep research agents primarily improve performance by scaling reasoning depth, but this leads to high inference cost and latency in search-intensive scenarios. Moreover, generalization across heterogeneous research settings remains challenging. In this work, we propose Search More, Think Less (SMTL), a framework for long-horizon agentic search that targets both efficiency and generalization. SMTL replaces sequential reasoning with parallel evidence acquisition, enabling efficient context management under constrained context budgets. To support generalization across task types, we further introduce a unified data synthesis pipeline that constructs search tasks spanning both deterministic question answering and open-ended research scenarios with task appropriate evaluation metrics. We train an end-to-end agent using supervised fine-tuning and reinforcement learning, achieving strong and often state of the art performance across benchmarks including BrowseComp (48.6\%), GAIA (75.7\%), Xbench (82.0\%), and DeepResearch Bench (45.9\%). Compared to Mirothinker-v1.0, SMTL with maximum 100 interaction steps reduces the average number of reasoning steps on BrowseComp by 70.7\%, while improving accuracy.

Искать больше, думать меньше: Переосмысление долгосрочного агентного поиска для повышения эффективности и обобщающей способности

Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

Аннотация

Support