FORT-Searcher: Синтез устойчивых к обходным путям поисковых задач для обучения глубоких поисковых агентов

Аннотация

Обучение агентов глубокого поиска требует проверяемых вопросов, ответы на которые остаются недоступными до тех пор, пока в ходе поиска не будет получено достаточно свидетельств. Существующие методы синтеза часто повышают видимую сложность за счёт обогащения структур графов, однако одна лишь структурная сложность не гарантирует реализованную сложность поиска: предполагаемый процесс поиска может разрушиться из-за более дешёвого опознавательного пути. Мы формализуем этот разрыв с помощью системы оценки сложности с учётом сокращений и выделяем четыре действенных риска сокращений: совместное покрытие свидетельств, селективность по одному признаку, открытые константы и привязка предварительных знаний. Для диагностики их реализованных эффектов мы используем сигнатуры траекторий, включающие стоимость решения, время нахождения ответа и частоту использования предварительных сокращений. Руководствуясь этой системой, мы представляем FORT — платформу синтеза обучающих данных, устойчивых к сокращениям. FORT создаёт такие данные, контролируя риски сокращений на этапах выбора сущностей, построения графа свидетельств, формулировки вопросов и состязательного уточнения. Эксперименты показывают, что FORT обеспечивает более длительный поиск до получения ответа и меньшее количество паттернов сокращений по сравнению с существующими открытыми наборами данных для глубокого поиска. Используя полученные траектории, мы обучаем FORT-Searcher только с помощью точной настройки с учителем (SFT), и он достигает наилучшей общей производительности среди агентов поиска с открытым исходным кодом сопоставимого размера на сложных эталонных тестах глубокого поиска. Соответствующие ресурсы будут доступны по адресу https://github.com/RUCAIBox/FORT-Searcher.

English

Training deep search agents requires verifiable questions whose answers remain unavailable until sufficient evidence has been acquired through search. Existing synthesis methods often increase apparent difficulty by enriching graph structures, but structural complexity alone does not guarantee realized search difficulty: the intended search process can collapse through a cheaper identifying route. We formalize this gap with a shortcut-aware difficulty framework and identify four actionable shortcut risks: evidence co-coverage, single-clue selectivity, exposed constants, and prior-knowledge binding. To diagnose their realized effects, we use trajectory signatures including solving cost, answer hit time, and prior-shortcut rate. Guided by this framework, we introduce FORT, a Framework of Shortcut-Resistant Training-Data Synthesis. FORT constructs shortcut-resistant training data by controlling shortcut risks across entity selection, evidence graph construction, question formulation, and adversarial refinement. Experiments show that FORT induces longer pre-answer search and fewer shortcut patterns than existing open-source deep search datasets. Using the resulting trajectories, we train FORT-Searcher with supervised fine-tuning (SFT) only, and it achieves the best overall performance among comparable-size open-source search agents on challenging deep search benchmarks. Relevant resources will be made available at https://github.com/RUCAIBox/FORT-Searcher.