ChatPaper.aiChatPaper

FORT-Searcher: 심층 검색 에이전트 훈련을 위한 단축 경로에 강건한 검색 과제 합성

FORT-Searcher: Synthesizing Shortcut-Resistant Search Tasks for Training Deep Search Agents

June 10, 2026
저자: Jia Deng, Yimeng Chen, Xiaoqing Xiang, Ziyang Zeng, Shuo Tang, Wayne Xin Zhao, Feng Chang, Chuan Hao, Yuan Wei, Ran Tao, Bryan Dai, Ji-Rong Wen
cs.AI

초록

심층 검색 에이전트를 훈련하려면 검색을 통해 충분한 증거가 확보될 때까지 답변을 알 수 없는 검증 가능한 질문이 필요하다. 기존의 합성 방법은 종종 그래프 구조를 풍부하게 하여 겉보기 난이도를 높이지만, 구조적 복잡성만으로는 실제 검색 난이도가 보장되지 않는다. 의도된 검색 과정이 더 쉬운 식별 경로를 통해 붕괴될 수 있기 때문이다. 우리는 이러한 격차를 지름길 인식 난이도 프레임워크로 공식화하고, 네 가지 실행 가능한 지름길 위험(증거 공동 커버리지, 단일 단서 선택성, 노출된 상수, 사전 지식 결합)을 식별한다. 이들의 실제 효과를 진단하기 위해 해결 비용, 정답 도달 시간, 사전 지름길 비율을 포함한 궤적 시그니처를 사용한다. 이 프레임워크에 기반하여 지름길 저항 훈련 데이터 합성 프레임워크인 FORT를 도입한다. FORT는 개체 선택, 증거 그래프 구축, 질문 구성, 적대적 정제 과정에서 지름길 위험을 통제하여 지름길 저항 훈련 데이터를 구축한다. 실험 결과, FORT는 기존의 오픈소스 심층 검색 데이터셋보다 더 긴 사전 답변 검색과 더 적은 지름길 패턴을 유도한다. 결과 궤적을 사용하여 지도 미세 조정(SFT)만으로 FORT-Searcher를 훈련했으며, 이는 까다로운 심층 검색 벤치마크에서 유사 규모의 오픈소스 검색 에이전트 중 최고의 전반적 성능을 달성한다. 관련 자료는 https://github.com/RUCAIBox/FORT-Searcher에서 제공될 예정이다.
English
Training deep search agents requires verifiable questions whose answers remain unavailable until sufficient evidence has been acquired through search. Existing synthesis methods often increase apparent difficulty by enriching graph structures, but structural complexity alone does not guarantee realized search difficulty: the intended search process can collapse through a cheaper identifying route. We formalize this gap with a shortcut-aware difficulty framework and identify four actionable shortcut risks: evidence co-coverage, single-clue selectivity, exposed constants, and prior-knowledge binding. To diagnose their realized effects, we use trajectory signatures including solving cost, answer hit time, and prior-shortcut rate. Guided by this framework, we introduce FORT, a Framework of Shortcut-Resistant Training-Data Synthesis. FORT constructs shortcut-resistant training data by controlling shortcut risks across entity selection, evidence graph construction, question formulation, and adversarial refinement. Experiments show that FORT induces longer pre-answer search and fewer shortcut patterns than existing open-source deep search datasets. Using the resulting trajectories, we train FORT-Searcher with supervised fine-tuning (SFT) only, and it achieves the best overall performance among comparable-size open-source search agents on challenging deep search benchmarks. Relevant resources will be made available at https://github.com/RUCAIBox/FORT-Searcher.