深層研究のためのオープンデータ統合
Open Data Synthesis For Deep Research
August 30, 2025
著者: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI
要旨
大規模言語モデル(LLMs)は、単純な事実確認クエリを超え、質問をサブ問題に分解し、多段階の推論を調整し、多様な情報源から証拠を統合することを要求する「深層研究タスク」に対応することがますます期待されている。我々は、検証可能な回答を伴う深層研究タスクを「階層的制約充足問題(HCSPs)」として形式化する。これは、単一制約、マルチホップ、または平坦な制約充足問題(CSP)の定式化とは根本的に異なる。しかし、既存のベンチマーク(例:Natural Questions、HotpotQA)はこの複雑さを捉えられておらず、最近の合成データセットはしばしばショートカット推論や知識漏洩を引き起こすか、十分な構造的深さを欠いている。このギャップを埋めるため、我々は複雑な深層研究タスクを合成するためのスケーラブルなフレームワーク「InfoSeek」を提案する。InfoSeekは、デュアルエージェントシステムを使用して大規模なウェブページから再帰的に「研究ツリー」を構築し、中間ノードを有効なサブ問題にぼかし、これらのツリーを階層全体を横断する必要がある自然言語質問に変換する。また、迅速なスケーリングを可能にし、5万以上のトレーニング例、精選されたテストセット、およびリジェクトサンプリングを通じて生成された推論軌跡を提供する。実験結果は、InfoSeekでトレーニングされたモデルが強力なベースラインを一貫して上回ることを示している。挑戦的なベンチマーク「BrowseComp-Plus」では、InfoSeekで最適化された3B LLMsが、はるかに大規模な32Bモデルや軽量の商用API(例:Gemini2.5-Flash)を上回り、より強力なAPI(例:Gemini2.5-Pro)に匹敵する性能を達成した。中間ステップや検索ラベルなどのメタ情報を保持することで、InfoSeekは複合報酬設計や軌跡レベルの探索を含む高度な最適化戦略をさらにサポートする。我々は、コードとデータセットをhttps://github.com/VectorSpaceLab/InfoSeek{このリポジトリ}で提供する。
English
Large language models (LLMs) are increasingly expected to go beyond simple
factual queries toward Deep Research-tasks that require decomposing questions
into sub-problems, coordinating multi-step reasoning, and synthesizing evidence
from diverse sources. We formalize Deep Research tasks with verifiable answers
as Hierarchical Constraint Satisfaction Problems (HCSPs), which are
fundamentally different from single-constraint, multi-hop, or flat CSP
formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA)
fail to capture this complexity, while recent synthetic datasets often
introduce shortcut reasoning, knowledge leakage, or lack sufficient structural
depth. To address this gap, we introduce InfoSeek, a scalable framework for
synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to
recursively build a Research Tree from large-scale webpages, blurring
intermediate nodes into valid sub-problems, and converting these trees into
natural language questions that require traversing the full hierarchy. It also
enables rapid scaling, yielding over 50K training examples, a curated test set,
and reasoning trajectories generated via reject sampling. Experiments show that
models trained on InfoSeek consistently outperform strong baselines. On a
challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass
much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash),
while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro).
By preserving meta-information such as intermediate steps and retrieval labels,
InfoSeek further supports advanced optimization strategies, including compound
reward design and trajectory-level exploration. We provide our codes and
datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.