ChatPaper.aiChatPaper

Synthèse des Données Ouvertes pour la Recherche Approfondie

Open Data Synthesis For Deep Research

August 30, 2025
papers.authors: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) sont de plus en plus attendus pour aller au-delà des simples requêtes factuelles vers des tâches de recherche approfondie qui nécessitent de décomposer les questions en sous-problèmes, de coordonner un raisonnement en plusieurs étapes et de synthétiser des preuves provenant de sources diverses. Nous formalisons les tâches de recherche approfondie avec des réponses vérifiables comme des problèmes de satisfaction de contraintes hiérarchiques (HCSPs), qui sont fondamentalement différents des formulations de CSP à contrainte unique, multi-sauts ou plates. Cependant, les benchmarks existants (par exemple, Natural Questions, HotpotQA) ne parviennent pas à capturer cette complexité, tandis que les ensembles de données synthétiques récents introduisent souvent des raccourcis de raisonnement, des fuites de connaissances ou manquent de profondeur structurelle. Pour combler cette lacune, nous introduisons InfoSeek, un cadre évolutif pour synthétiser des tâches complexes de recherche approfondie. InfoSeek utilise un système à double agent pour construire récursivement un arbre de recherche à partir de pages web à grande échelle, en brouillant les nœuds intermédiaires en sous-problèmes valides, et en convertissant ces arbres en questions en langage naturel qui nécessitent de parcourir toute la hiérarchie. Il permet également une mise à l'échelle rapide, produisant plus de 50 000 exemples d'entraînement, un ensemble de test soigneusement sélectionné et des trajectoires de raisonnement générées via un échantillonnage par rejet. Les expériences montrent que les modèles entraînés sur InfoSeek surpassent systématiquement les bases de référence solides. Sur un benchmark difficile, BrowseComp-Plus, les LLMs de 3B optimisés avec InfoSeek surpassent des modèles beaucoup plus grands de 32B et des API commerciales légères (par exemple, Gemini2.5-Flash), tout en atteignant des performances comparables à des API plus puissantes (par exemple, Gemini2.5-Pro). En préservant les méta-informations telles que les étapes intermédiaires et les étiquettes de récupération, InfoSeek soutient en outre des stratégies d'optimisation avancées, y compris la conception de récompenses composées et l'exploration au niveau des trajectoires. Nous fournissons nos codes et ensembles de données dans https://github.com/VectorSpaceLab/InfoSeek{cette repository}.
English
Large language models (LLMs) are increasingly expected to go beyond simple factual queries toward Deep Research-tasks that require decomposing questions into sub-problems, coordinating multi-step reasoning, and synthesizing evidence from diverse sources. We formalize Deep Research tasks with verifiable answers as Hierarchical Constraint Satisfaction Problems (HCSPs), which are fundamentally different from single-constraint, multi-hop, or flat CSP formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA) fail to capture this complexity, while recent synthetic datasets often introduce shortcut reasoning, knowledge leakage, or lack sufficient structural depth. To address this gap, we introduce InfoSeek, a scalable framework for synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to recursively build a Research Tree from large-scale webpages, blurring intermediate nodes into valid sub-problems, and converting these trees into natural language questions that require traversing the full hierarchy. It also enables rapid scaling, yielding over 50K training examples, a curated test set, and reasoning trajectories generated via reject sampling. Experiments show that models trained on InfoSeek consistently outperform strong baselines. On a challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash), while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro). By preserving meta-information such as intermediate steps and retrieval labels, InfoSeek further supports advanced optimization strategies, including compound reward design and trajectory-level exploration. We provide our codes and datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.
PDF482September 4, 2025