Sintesi di Dati Aperti per la Ricerca Profonda
Open Data Synthesis For Deep Research
August 30, 2025
Autori: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono sempre più chiamati a superare le semplici query fattuali per affrontare compiti di Deep Research che richiedono la scomposizione delle domande in sottoproblemi, il coordinamento di ragionamenti multi-step e la sintesi di evidenze provenienti da fonti diverse. Formalizziamo i compiti di Deep Research con risposte verificabili come Problemi di Soddisfazione di Vincoli Gerarchici (HCSP), che sono fondamentalmente diversi dalle formulazioni di CSP a singolo vincolo, multi-hop o piatte. Tuttavia, i benchmark esistenti (ad esempio, Natural Questions, HotpotQA) non riescono a catturare questa complessità, mentre i recenti dataset sintetici spesso introducono scorciatoie di ragionamento, perdite di conoscenza o mancano di sufficiente profondità strutturale. Per colmare questa lacuna, introduciamo InfoSeek, un framework scalabile per sintetizzare complessi compiti di Deep Research. InfoSeek utilizza un sistema dual-agent per costruire ricorsivamente un Albero di Ricerca da pagine web su larga scala, sfumando i nodi intermedi in sottoproblemi validi e convertendo questi alberi in domande in linguaggio naturale che richiedono l'attraversamento dell'intera gerarchia. Consente inoltre una rapida scalabilità, producendo oltre 50K esempi di addestramento, un test set curato e traiettorie di ragionamento generate tramite reject sampling. Gli esperimenti mostrano che i modelli addestrati su InfoSeek superano costantemente i baseline forti. Su un benchmark impegnativo come BrowseComp-Plus, LLM da 3B ottimizzati con InfoSeek superano modelli molto più grandi da 32B e API commerciali leggere (ad esempio, Gemini2.5-Flash), raggiungendo prestazioni comparabili a API più potenti (ad esempio, Gemini2.5-Pro). Preservando meta-informazioni come passaggi intermedi ed etichette di recupero, InfoSeek supporta ulteriormente strategie di ottimizzazione avanzate, tra cui il design di ricompense composte e l'esplorazione a livello di traiettoria. Forniamo i nostri codici e dataset in {questo repository} https://github.com/VectorSpaceLab/InfoSeek.
English
Large language models (LLMs) are increasingly expected to go beyond simple
factual queries toward Deep Research-tasks that require decomposing questions
into sub-problems, coordinating multi-step reasoning, and synthesizing evidence
from diverse sources. We formalize Deep Research tasks with verifiable answers
as Hierarchical Constraint Satisfaction Problems (HCSPs), which are
fundamentally different from single-constraint, multi-hop, or flat CSP
formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA)
fail to capture this complexity, while recent synthetic datasets often
introduce shortcut reasoning, knowledge leakage, or lack sufficient structural
depth. To address this gap, we introduce InfoSeek, a scalable framework for
synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to
recursively build a Research Tree from large-scale webpages, blurring
intermediate nodes into valid sub-problems, and converting these trees into
natural language questions that require traversing the full hierarchy. It also
enables rapid scaling, yielding over 50K training examples, a curated test set,
and reasoning trajectories generated via reject sampling. Experiments show that
models trained on InfoSeek consistently outperform strong baselines. On a
challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass
much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash),
while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro).
By preserving meta-information such as intermediate steps and retrieval labels,
InfoSeek further supports advanced optimization strategies, including compound
reward design and trajectory-level exploration. We provide our codes and
datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.