Offene Datensynthese für tiefgehende Forschung
Open Data Synthesis For Deep Research
August 30, 2025
papers.authors: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) werden zunehmend dazu erwartet, über einfache Faktenabfragen hinauszugehen und sich komplexen Deep Research-Aufgaben zu widmen, die das Zerlegen von Fragen in Teilprobleme, die Koordination von mehrstufigem Denken und die Synthese von Beweisen aus verschiedenen Quellen erfordern. Wir formalisieren Deep Research-Aufgaben mit überprüfbaren Antworten als Hierarchische Constraint Satisfaction Problems (HCSPs), die sich grundlegend von Einzel-Constraint-, Multi-Hop- oder flachen CSP-Formulierungen unterscheiden. Bestehende Benchmarks (z. B. Natural Questions, HotpotQA) erfassen diese Komplexität jedoch nicht, während neuere synthetische Datensätze oft Abkürzungen im Denken, Wissenslecks oder unzureichende strukturelle Tiefe einführen. Um diese Lücke zu schließen, stellen wir InfoSeek vor, ein skalierbares Framework zur Synthese komplexer Deep Research-Aufgaben. InfoSeek verwendet ein Dual-Agenten-System, um rekursiv einen Forschungsbaum aus großflächigen Webseiten zu erstellen, Zwischenknoten in gültige Teilprobleme zu verwischen und diese Bäume in natürliche Sprachfragen umzuwandeln, die das Durchlaufen der gesamten Hierarchie erfordern. Es ermöglicht auch eine schnelle Skalierung, wodurch über 50.000 Trainingsbeispiele, ein kuratiertes Testset und Denkpfade, die durch Reject Sampling generiert werden, entstehen. Experimente zeigen, dass Modelle, die mit InfoSeek trainiert wurden, durchweg starke Baselines übertreffen. Auf einem anspruchsvollen Benchmark, BrowseComp-Plus, übertreffen mit InfoSeek optimierte 3B-LLMs deutlich größere 32B-Modelle und leichte kommerzielle APIs (z. B. Gemini2.5-Flash), während sie eine Leistung erzielen, die mit stärkeren APIs (z. B. Gemini2.5-Pro) vergleichbar ist. Durch die Bewahrung von Meta-Informationen wie Zwischenschritten und Retrieval-Labels unterstützt InfoSeek weiterhin fortgeschrittene Optimierungsstrategien, einschließlich der Gestaltung von zusammengesetzten Belohnungen und der Exploration auf Trajektorienebene. Wir stellen unsere Codes und Datensätze unter https://github.com/VectorSpaceLab/InfoSeek{this repository} zur Verfügung.
English
Large language models (LLMs) are increasingly expected to go beyond simple
factual queries toward Deep Research-tasks that require decomposing questions
into sub-problems, coordinating multi-step reasoning, and synthesizing evidence
from diverse sources. We formalize Deep Research tasks with verifiable answers
as Hierarchical Constraint Satisfaction Problems (HCSPs), which are
fundamentally different from single-constraint, multi-hop, or flat CSP
formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA)
fail to capture this complexity, while recent synthetic datasets often
introduce shortcut reasoning, knowledge leakage, or lack sufficient structural
depth. To address this gap, we introduce InfoSeek, a scalable framework for
synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to
recursively build a Research Tree from large-scale webpages, blurring
intermediate nodes into valid sub-problems, and converting these trees into
natural language questions that require traversing the full hierarchy. It also
enables rapid scaling, yielding over 50K training examples, a curated test set,
and reasoning trajectories generated via reject sampling. Experiments show that
models trained on InfoSeek consistently outperform strong baselines. On a
challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass
much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash),
while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro).
By preserving meta-information such as intermediate steps and retrieval labels,
InfoSeek further supports advanced optimization strategies, including compound
reward design and trajectory-level exploration. We provide our codes and
datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.