FORT-Searcher : synthétiser des tâches de recherche résistantes aux raccourcis pour l'entraînement d'agents de recherche profonde

Résumé

L’entraînement d’agents de recherche profonde nécessite des questions vérifiables dont les réponses restent indisponibles jusqu’à ce qu’assez de preuves aient été acquises par la recherche. Les méthodes de synthèse existantes augmentent souvent la difficulté apparente en enrichissant les structures de graphes, mais la complexité structurelle seule ne garantit pas une difficulté de recherche réalisée : le processus de recherche prévu peut s’effondrer par une voie d’identification moins coûteuse. Nous formalisons cet écart avec un cadre de difficulté tenant compte des raccourcis et identifions quatre risques de raccourci exploitables : la couverture conjointe des preuves, la sélectivité d’indice unique, les constantes exposées et la liaison de connaissances préalables. Pour diagnostiquer leurs effets réalisés, nous utilisons des signatures de trajectoire incluant le coût de résolution, le temps d’obtention de la réponse et le taux de raccourci préalable. Guidés par ce cadre, nous présentons FORT, un Cadre de synthèse de données d’entraînement résistantes aux raccourcis. FORT construit des données d’entraînement résistantes aux raccourcis en contrôlant les risques de raccourci à travers la sélection d’entités, la construction de graphe de preuves, la formulation de questions et le raffinement contradictoire. Les expériences montrent que FORT induit une recherche plus longue avant la réponse et moins de motifs de raccourci que les ensembles de données de recherche profonde open-source existants. En utilisant les trajectoires résultantes, nous entraînons FORT-Searcher uniquement par ajustement supervisé fin (SFT), et il obtient la meilleure performance globale parmi les agents de recherche open-source de taille comparable sur des benchmarks de recherche profonde exigeants. Les ressources pertinentes seront mises à disposition sur https://github.com/RUCAIBox/FORT-Searcher.

English

Training deep search agents requires verifiable questions whose answers remain unavailable until sufficient evidence has been acquired through search. Existing synthesis methods often increase apparent difficulty by enriching graph structures, but structural complexity alone does not guarantee realized search difficulty: the intended search process can collapse through a cheaper identifying route. We formalize this gap with a shortcut-aware difficulty framework and identify four actionable shortcut risks: evidence co-coverage, single-clue selectivity, exposed constants, and prior-knowledge binding. To diagnose their realized effects, we use trajectory signatures including solving cost, answer hit time, and prior-shortcut rate. Guided by this framework, we introduce FORT, a Framework of Shortcut-Resistant Training-Data Synthesis. FORT constructs shortcut-resistant training data by controlling shortcut risks across entity selection, evidence graph construction, question formulation, and adversarial refinement. Experiments show that FORT induces longer pre-answer search and fewer shortcut patterns than existing open-source deep search datasets. Using the resulting trajectories, we train FORT-Searcher with supervised fine-tuning (SFT) only, and it achieves the best overall performance among comparable-size open-source search agents on challenging deep search benchmarks. Relevant resources will be made available at https://github.com/RUCAIBox/FORT-Searcher.