Síntesis de Datos Abiertos para Investigación Profunda
Open Data Synthesis For Deep Research
August 30, 2025
Autores: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI
Resumen
Se espera cada vez más que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) vayan más allá de consultas factuales simples hacia tareas de Investigación Profunda que requieren descomponer preguntas en subproblemas, coordinar razonamientos de múltiples pasos y sintetizar evidencia de diversas fuentes. Formalizamos las tareas de Investigación Profunda con respuestas verificables como Problemas de Satisfacción de Restricciones Jerárquicas (HCSPs, por sus siglas en inglés), los cuales son fundamentalmente diferentes de formulaciones de CSP de restricción única, de múltiples saltos o planas. Sin embargo, los puntos de referencia existentes (por ejemplo, Natural Questions, HotpotQA) no logran capturar esta complejidad, mientras que los conjuntos de datos sintéticos recientes a menudo introducen razonamientos abreviados, fugas de conocimiento o carecen de suficiente profundidad estructural. Para abordar esta brecha, presentamos InfoSeek, un marco escalable para sintetizar tareas complejas de Investigación Profunda. InfoSeek utiliza un sistema de doble agente para construir recursivamente un Árbol de Investigación a partir de páginas web a gran escala, difuminando nodos intermedios en subproblemas válidos y convirtiendo estos árboles en preguntas en lenguaje natural que requieren recorrer la jerarquía completa. También permite una escalabilidad rápida, generando más de 50K ejemplos de entrenamiento, un conjunto de pruebas curado y trayectorias de razonamiento generadas mediante muestreo por rechazo. Los experimentos muestran que los modelos entrenados con InfoSeek superan consistentemente a las líneas base sólidas. En un punto de referencia desafiante, BrowseComp-Plus, los LLMs de 3B optimizados con InfoSeek superan a modelos mucho más grandes de 32B y a APIs comerciales ligeras (por ejemplo, Gemini2.5-Flash), mientras alcanzan un rendimiento comparable a APIs más potentes (por ejemplo, Gemini2.5-Pro). Al preservar metainformación como pasos intermedios y etiquetas de recuperación, InfoSeek además respalda estrategias avanzadas de optimización, incluyendo diseño de recompensas compuestas y exploración a nivel de trayectoria. Proporcionamos nuestros códigos y conjuntos de datos en https://github.com/VectorSpaceLab/InfoSeek{este repositorio}.
English
Large language models (LLMs) are increasingly expected to go beyond simple
factual queries toward Deep Research-tasks that require decomposing questions
into sub-problems, coordinating multi-step reasoning, and synthesizing evidence
from diverse sources. We formalize Deep Research tasks with verifiable answers
as Hierarchical Constraint Satisfaction Problems (HCSPs), which are
fundamentally different from single-constraint, multi-hop, or flat CSP
formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA)
fail to capture this complexity, while recent synthetic datasets often
introduce shortcut reasoning, knowledge leakage, or lack sufficient structural
depth. To address this gap, we introduce InfoSeek, a scalable framework for
synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to
recursively build a Research Tree from large-scale webpages, blurring
intermediate nodes into valid sub-problems, and converting these trees into
natural language questions that require traversing the full hierarchy. It also
enables rapid scaling, yielding over 50K training examples, a curated test set,
and reasoning trajectories generated via reject sampling. Experiments show that
models trained on InfoSeek consistently outperform strong baselines. On a
challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass
much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash),
while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro).
By preserving meta-information such as intermediate steps and retrieval labels,
InfoSeek further supports advanced optimization strategies, including compound
reward design and trajectory-level exploration. We provide our codes and
datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.