SAGE: 실행 피드백을 통한 심층 검색을 위한 방향성 에이전트 데이터 생성
SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback
January 26, 2026
저자: Fangyuan Xu, Rujun Han, Yanfei Chen, Zifeng Wang, I-Hung Hsu, Jun Yan, Vishy Tirumalashetty, Eunsol Choi, Tomas Pfister, Chen-Yu Lee
cs.AI
초록
다수의 문서에 걸친 추론이 필요한 복잡한 질문에 답하는 것을 목표로 하는 딥 서치 에이전트는 정보 탐색 과정을 크게 가속화할 수 있습니다. 이러한 응용 분야에 대해 긴 탐색 경로로 인해 인간의 주석을 수집하는 것은 비용이 매우 많이 듭니다. 본 연구에서는 주어진 코퍼스와 목표 난이도에 대해 고품질이며 난이도가 조절된 딥 서치 질문-답변 쌍을 자동으로 생성하는 에이전트 기반 파이프라인을 제안합니다. 우리의 파이프라인인 SAGE는 QA 쌍을 제안하는 데이터 생성기와 생성된 질문을 해결하려고 시도하며 데이터 생성기에 실행 피드백을 제공하는 검색 에이전트로 구성됩니다. 두 구성 요소는 여러 차례에 걸쳐 상호작용하며 질문-답변 쌍이 목표 난이도를 충족할 때까지 반복적으로 개선합니다. 내적 평가 결과, SAGE는 다양한 추론 전략을 필요로 하는 질문을 생성하는 동시에 생성된 데이터의 정확성과 난이도를 크게 높이는 것으로 나타났습니다. 외적 평가에서는 우리의 합성 데이터로 딥 서치 에이전트를 훈련시켜 인기 있는 딥 서치 벤치마크에서 최대 23%의 상대적 성능 향상을 입증했습니다. 추가 실험을 통해 우리 데이터로 훈련된 에이전트가 추론 시 고정 코퍼스 검색에서 Google 검색으로 추가 훈련 없이 적응할 수 있음을 보여줍니다.
English
Deep search agents, which aim to answer complex questions requiring reasoning across multiple documents, can significantly speed up the information-seeking process. Collecting human annotations for this application is prohibitively expensive due to long and complex exploration trajectories. We propose an agentic pipeline that automatically generates high quality, difficulty-controlled deep search question-answer pairs for a given corpus and a target difficulty level. Our pipeline, SAGE, consists of a data generator which proposes QA pairs and a search agent which attempts to solve the generated question and provide execution feedback for the data generator. The two components interact over multiple rounds to iteratively refine the question-answer pairs until they satisfy the target difficulty level. Our intrinsic evaluation shows SAGE generates questions that require diverse reasoning strategies, while significantly increases the correctness and difficulty of the generated data. Our extrinsic evaluation demonstrates up to 23% relative performance gain on popular deep search benchmarks by training deep search agents with our synthetic data. Additional experiments show that agents trained on our data can adapt from fixed-corpus retrieval to Google Search at inference time, without further training.