FORT-Searcher: Synthese von shortcut-resistenten Suchaufgaben zum Training von Deep Search Agents

Zusammenfassung

Das Training von Deep-Search-Agenten erfordert überprüfbare Fragen, deren Antworten erst verfügbar werden, wenn durch die Suche ausreichend Belege beschafft wurden. Bestehende Synthesemethoden erhöhen die scheinbare Schwierigkeit oft durch eine Anreicherung der Graphstrukturen, doch allein die strukturelle Komplexität garantiert keine tatsächliche Suchschwierigkeit: Der beabsichtigte Suchprozess kann über einen kostengünstigeren Identifikationspfad zusammenbrechen. Wir formalisieren diese Lücke mit einem abkürzungsbewussten Schwierigkeitsrahmen (shortcut-aware difficulty framework) und identifizieren vier handhabbare Abkürzungsrisiken (shortcut risks): gemeinsame Evidenzabdeckung (evidence co-coverage), Einzelhinweis-Selektivität (single-clue selectivity), exponierte Konstanten (exposed constants) und Vorwissensbindung (prior-knowledge binding). Zur Diagnose ihrer tatsächlichen Auswirkungen nutzen wir Trajektorien-Signaturen (trajectory signatures), darunter Lösungskosten (solving cost), Antworttrefferzeit (answer hit time) und Vorabkurzschlussrate (prior-shortcut rate). Aufbauend auf diesem Rahmen führen wir FORT ein, ein Rahmenwerk zur Synthese abkürzungsresistenter Trainingsdaten (Framework of Shortcut-Resistant Training-Data Synthesis). FORT erstellt abkürzungsresistente Trainingsdaten, indem es die Abkürzungsrisiken über die Auswahl von Entitäten, die Konstruktion von Evidenzgraphen, die Formulierung von Fragen und die adversarielle Verfeinerung steuert. Experimente zeigen, dass FORT im Vergleich zu bestehenden Open-Source-Deep-Search-Datensätzen längere Suchzeiten vor der Antwort und weniger Abkürzungsmuster hervorruft. Unter Verwendung der resultierenden Trajektorien trainieren wir FORT-Searcher ausschließlich mit überwachtem Feintuning (SFT) und erzielen damit die insgesamt beste Leistung unter den vergleichbar großen Open-Source-Suchagenten auf anspruchsvollen Deep-Search-Benchmarks. Relevante Ressourcen werden unter https://github.com/RUCAIBox/FORT-Searcher bereitgestellt.

English

Training deep search agents requires verifiable questions whose answers remain unavailable until sufficient evidence has been acquired through search. Existing synthesis methods often increase apparent difficulty by enriching graph structures, but structural complexity alone does not guarantee realized search difficulty: the intended search process can collapse through a cheaper identifying route. We formalize this gap with a shortcut-aware difficulty framework and identify four actionable shortcut risks: evidence co-coverage, single-clue selectivity, exposed constants, and prior-knowledge binding. To diagnose their realized effects, we use trajectory signatures including solving cost, answer hit time, and prior-shortcut rate. Guided by this framework, we introduce FORT, a Framework of Shortcut-Resistant Training-Data Synthesis. FORT constructs shortcut-resistant training data by controlling shortcut risks across entity selection, evidence graph construction, question formulation, and adversarial refinement. Experiments show that FORT induces longer pre-answer search and fewer shortcut patterns than existing open-source deep search datasets. Using the resulting trajectories, we train FORT-Searcher with supervised fine-tuning (SFT) only, and it achieves the best overall performance among comparable-size open-source search agents on challenging deep search benchmarks. Relevant resources will be made available at https://github.com/RUCAIBox/FORT-Searcher.