Синтез открытых данных для углубленных исследований
Open Data Synthesis For Deep Research
August 30, 2025
Авторы: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI
Аннотация
Крупные языковые модели (LLMs) всё чаще ожидается, что они выйдут за рамки простых фактологических запросов и перейдут к задачам глубокого исследования, которые требуют декомпозиции вопросов на подпроблемы, координации многошаговых рассуждений и синтеза доказательств из разнообразных источников. Мы формализуем задачи глубокого исследования с проверяемыми ответами как иерархические задачи удовлетворения ограничений (Hierarchical Constraint Satisfaction Problems, HCSPs), которые принципиально отличаются от задач с одним ограничением, многошаговых или плоских задач CSP. Однако существующие бенчмарки (например, Natural Questions, HotpotQA) не охватывают эту сложность, в то время как недавние синтетические наборы данных часто вводят упрощённые рассуждения, утечку знаний или недостаточную структурную глубину. Чтобы устранить этот пробел, мы представляем InfoSeek — масштабируемую структуру для синтеза сложных задач глубокого исследования. InfoSeek использует систему с двумя агентами для рекурсивного построения дерева исследования из крупномасштабных веб-страниц, преобразуя промежуточные узлы в валидные подпроблемы и переводя эти деревья в естественноязыковые вопросы, требующие прохождения всей иерархии. Он также позволяет быстро масштабироваться, создавая более 50 тыс. обучающих примеров, курированный тестовый набор и траектории рассуждений, сгенерированные с помощью отбраковочной выборки. Эксперименты показывают, что модели, обученные на InfoSeek, стабильно превосходят сильные базовые модели. На сложном бенчмарке BrowseComp-Plus 3B LLMs, оптимизированные с помощью InfoSeek, превосходят гораздо более крупные 32B модели и облегчённые коммерческие API (например, Gemini2.5-Flash), достигая производительности, сопоставимой с более мощными API (например, Gemini2.5-Pro). Сохраняя метаинформацию, такую как промежуточные шаги и метки извлечения, InfoSeek дополнительно поддерживает продвинутые стратегии оптимизации, включая составное проектирование вознаграждений и исследование на уровне траекторий. Мы предоставляем наши коды и наборы данных в {этом репозитории} https://github.com/VectorSpaceLab/InfoSeek.
English
Large language models (LLMs) are increasingly expected to go beyond simple
factual queries toward Deep Research-tasks that require decomposing questions
into sub-problems, coordinating multi-step reasoning, and synthesizing evidence
from diverse sources. We formalize Deep Research tasks with verifiable answers
as Hierarchical Constraint Satisfaction Problems (HCSPs), which are
fundamentally different from single-constraint, multi-hop, or flat CSP
formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA)
fail to capture this complexity, while recent synthetic datasets often
introduce shortcut reasoning, knowledge leakage, or lack sufficient structural
depth. To address this gap, we introduce InfoSeek, a scalable framework for
synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to
recursively build a Research Tree from large-scale webpages, blurring
intermediate nodes into valid sub-problems, and converting these trees into
natural language questions that require traversing the full hierarchy. It also
enables rapid scaling, yielding over 50K training examples, a curated test set,
and reasoning trajectories generated via reject sampling. Experiments show that
models trained on InfoSeek consistently outperform strong baselines. On a
challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass
much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash),
while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro).
By preserving meta-information such as intermediate steps and retrieval labels,
InfoSeek further supports advanced optimization strategies, including compound
reward design and trajectory-level exploration. We provide our codes and
datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.