딥 리서치를 위한 오픈 데이터 합성
Open Data Synthesis For Deep Research
August 30, 2025
저자: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI
초록
대규모 언어 모델(LLMs)은 단순한 사실 확인 질의를 넘어, 질문을 하위 문제로 분해하고 다단계 추론을 조율하며 다양한 출처의 증거를 종합해야 하는 심층 연구(Deep Research) 작업을 수행할 것으로 점점 더 기대받고 있습니다. 우리는 검증 가능한 답변을 요구하는 심층 연구 작업을 계층적 제약 만족 문제(Hierarchical Constraint Satisfaction Problems, HCSPs)로 공식화하며, 이는 단일 제약, 다중 홉 또는 평면적인 CSP 공식과 근본적으로 다릅니다. 그러나 기존 벤치마크(예: Natural Questions, HotpotQA)는 이러한 복잡성을 포착하지 못하며, 최근의 합성 데이터셋은 단축 추론, 지식 누출 또는 충분한 구조적 깊이 부족 등의 문제를 도입하는 경우가 많습니다. 이러한 격차를 해결하기 위해, 우리는 복잡한 심층 연구 작업을 합성하기 위한 확장 가능한 프레임워크인 InfoSeek을 소개합니다. InfoSeek은 이중 에이전트 시스템을 사용하여 대규모 웹페이지로부터 연구 트리(Research Tree)를 재귀적으로 구축하고, 중간 노드를 유효한 하위 문제로 흐리게 처리하며, 이러한 트리를 전체 계층을 탐색해야 하는 자연어 질문으로 변환합니다. 또한 InfoSeek은 빠른 확장을 가능하게 하여 50,000개 이상의 훈련 예제, 정제된 테스트 세트, 그리고 거부 샘플링을 통해 생성된 추론 궤적을 제공합니다. 실험 결과, InfoSeek으로 훈련된 모델은 강력한 베이스라인을 지속적으로 능가하는 것으로 나타났습니다. 도전적인 벤치마크인 BrowseComp-Plus에서, InfoSeek으로 최적화된 3B LLMs는 훨씬 더 큰 32B 모델과 경량 상용 API(예: Gemini2.5-Flash)를 능가하며, 더 강력한 API(예: Gemini2.5-Pro)와 비슷한 성능을 달성했습니다. 중간 단계 및 검색 레이블과 같은 메타 정보를 보존함으로써, InfoSeek은 복합 보상 설계 및 궤적 수준 탐색을 포함한 고급 최적화 전략을 추가로 지원합니다. 우리는 코드와 데이터셋을 https://github.com/VectorSpaceLab/InfoSeek{이 저장소}에서 제공합니다.
English
Large language models (LLMs) are increasingly expected to go beyond simple
factual queries toward Deep Research-tasks that require decomposing questions
into sub-problems, coordinating multi-step reasoning, and synthesizing evidence
from diverse sources. We formalize Deep Research tasks with verifiable answers
as Hierarchical Constraint Satisfaction Problems (HCSPs), which are
fundamentally different from single-constraint, multi-hop, or flat CSP
formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA)
fail to capture this complexity, while recent synthetic datasets often
introduce shortcut reasoning, knowledge leakage, or lack sufficient structural
depth. To address this gap, we introduce InfoSeek, a scalable framework for
synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to
recursively build a Research Tree from large-scale webpages, blurring
intermediate nodes into valid sub-problems, and converting these trees into
natural language questions that require traversing the full hierarchy. It also
enables rapid scaling, yielding over 50K training examples, a curated test set,
and reasoning trajectories generated via reject sampling. Experiments show that
models trained on InfoSeek consistently outperform strong baselines. On a
challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass
much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash),
while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro).
By preserving meta-information such as intermediate steps and retrieval labels,
InfoSeek further supports advanced optimization strategies, including compound
reward design and trajectory-level exploration. We provide our codes and
datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.