FORT-Searcher: Sintetizando Tareas de Búsqueda Resistentes a Atajos para Entrenar Agentes de Búsqueda Profunda

Resumen

Entrenar agentes de búsqueda profunda requiere preguntas verificables cuyas respuestas permanezcan inaccesibles hasta que se haya adquirido evidencia suficiente a través de la búsqueda. Los métodos de síntesis existentes a menudo aumentan la dificultad aparente al enriquecer las estructuras de grafos, pero la complejidad estructural por sí sola no garantiza la dificultad de búsqueda realizada: el proceso de búsqueda previsto puede colapsar a través de una ruta de identificación más económica. Formalizamos esta brecha con un marco de dificultad consciente de atajos e identificamos cuatro riesgos de atajos procesables: co-cobertura de evidencia, selectividad de una sola pista, constantes expuestas y vinculación con conocimiento previo. Para diagnosticar sus efectos realizados, utilizamos firmas de trayectoria que incluyen costo de resolución, tiempo de acierto de respuesta y tasa de atajos previos. Guiados por este marco, presentamos FORT, un Marco de Síntesis de Datos de Entrenamiento Resistentes a Atajos. FORT construye datos de entrenamiento resistentes a atajos mediante el control de riesgos de atajos en la selección de entidades, la construcción de grafos de evidencia, la formulación de preguntas y el refinamiento adversarial. Los experimentos muestran que FORT induce búsquedas previas a la respuesta más largas y menos patrones de atajos que los conjuntos de datos de búsqueda profunda de código abierto existentes. Utilizando las trayectorias resultantes, entrenamos FORT-Searcher solo con ajuste fino supervisado (SFT), y logra el mejor rendimiento general entre los agentes de búsqueda de código abierto de tamaño comparable en benchmarks desafiantes de búsqueda profunda. Los recursos relevantes estarán disponibles en https://github.com/RUCAIBox/FORT-Searcher.

English

Training deep search agents requires verifiable questions whose answers remain unavailable until sufficient evidence has been acquired through search. Existing synthesis methods often increase apparent difficulty by enriching graph structures, but structural complexity alone does not guarantee realized search difficulty: the intended search process can collapse through a cheaper identifying route. We formalize this gap with a shortcut-aware difficulty framework and identify four actionable shortcut risks: evidence co-coverage, single-clue selectivity, exposed constants, and prior-knowledge binding. To diagnose their realized effects, we use trajectory signatures including solving cost, answer hit time, and prior-shortcut rate. Guided by this framework, we introduce FORT, a Framework of Shortcut-Resistant Training-Data Synthesis. FORT constructs shortcut-resistant training data by controlling shortcut risks across entity selection, evidence graph construction, question formulation, and adversarial refinement. Experiments show that FORT induces longer pre-answer search and fewer shortcut patterns than existing open-source deep search datasets. Using the resulting trajectories, we train FORT-Searcher with supervised fine-tuning (SFT) only, and it achieves the best overall performance among comparable-size open-source search agents on challenging deep search benchmarks. Relevant resources will be made available at https://github.com/RUCAIBox/FORT-Searcher.