Open Data Synthese voor Diepgaand Onderzoek
Open Data Synthesis For Deep Research
August 30, 2025
Auteurs: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden steeds vaker verwacht verder te gaan dan eenvoudige feitelijke vragen, richting diepgaande onderzoektaken die vereisen dat vragen worden opgesplitst in subproblemen, multi-staps redeneren worden gecoördineerd en bewijs uit diverse bronnen wordt samengevoegd. We formaliseren diepgaande onderzoektaken met verifieerbare antwoorden als Hiërarchische Beperkingsvoldoeningproblemen (HCSP's), die fundamenteel verschillen van formuleringen met enkele beperkingen, multi-hop of vlakke CSP's. Bestaande benchmarks (bijv. Natural Questions, HotpotQA) slagen er echter niet in deze complexiteit vast te leggen, terwijl recente synthetische datasets vaak korte redeneringen, kennislekken introduceren of onvoldoende structurele diepte hebben. Om deze kloof te dichten, introduceren we InfoSeek, een schaalbaar raamwerk voor het synthetiseren van complexe diepgaande onderzoektaken. InfoSeek gebruikt een dual-agent systeem om recursief een Onderzoeksboom op te bouwen uit grootschalige webpagina's, waarbij tussenliggende knooppunten worden vervaagd in geldige subproblemen, en deze bomen worden omgezet in natuurlijke taalvragen die het volledige hiërarchie moeten doorlopen. Het maakt ook snelle schaalbaarheid mogelijk, wat resulteert in meer dan 50K trainingsvoorbeelden, een gecureerde testset en redeneertrajecten gegenereerd via reject sampling. Experimenten tonen aan dat modellen getraind op InfoSeek consequent sterke baselines overtreffen. Op een uitdagende benchmark BrowseComp-Plus overtreffen 3B LLM's geoptimaliseerd met InfoSeek veel grotere 32B-modellen en lichtgewicht commerciële API's (bijv. Gemini2.5-Flash), terwijl ze prestaties bereiken die vergelijkbaar zijn met sterkere API's (bijv. Gemini2.5-Pro). Door meta-informatie zoals tussenliggende stappen en ophaallabels te behouden, ondersteunt InfoSeek verder geavanceerde optimalisatiestrategieën, waaronder samengesteld beloningsontwerp en trajectniveau-exploratie. We bieden onze codes en datasets aan in https://github.com/VectorSpaceLab/InfoSeek{deze repository}.
English
Large language models (LLMs) are increasingly expected to go beyond simple
factual queries toward Deep Research-tasks that require decomposing questions
into sub-problems, coordinating multi-step reasoning, and synthesizing evidence
from diverse sources. We formalize Deep Research tasks with verifiable answers
as Hierarchical Constraint Satisfaction Problems (HCSPs), which are
fundamentally different from single-constraint, multi-hop, or flat CSP
formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA)
fail to capture this complexity, while recent synthetic datasets often
introduce shortcut reasoning, knowledge leakage, or lack sufficient structural
depth. To address this gap, we introduce InfoSeek, a scalable framework for
synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to
recursively build a Research Tree from large-scale webpages, blurring
intermediate nodes into valid sub-problems, and converting these trees into
natural language questions that require traversing the full hierarchy. It also
enables rapid scaling, yielding over 50K training examples, a curated test set,
and reasoning trajectories generated via reject sampling. Experiments show that
models trained on InfoSeek consistently outperform strong baselines. On a
challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass
much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash),
while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro).
By preserving meta-information such as intermediate steps and retrieval labels,
InfoSeek further supports advanced optimization strategies, including compound
reward design and trajectory-level exploration. We provide our codes and
datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.