ChatPaper.aiChatPaper

Síntese de Dados Abertos para Pesquisa Profunda

Open Data Synthesis For Deep Research

August 30, 2025
Autores: Ziyi Xia, Kun Luo, Hongjin Qian, Zheng Liu
cs.AI

Resumo

Grandes modelos de linguagem (LLMs) são cada vez mais esperados para ir além de consultas factuais simples em direção a tarefas de Pesquisa Profunda que exigem a decomposição de perguntas em subproblemas, a coordenação de raciocínios de múltiplos passos e a síntese de evidências de diversas fontes. Formalizamos tarefas de Pesquisa Profunda com respostas verificáveis como Problemas de Satisfação de Restrições Hierárquicas (HCSPs), que são fundamentalmente diferentes de formulações de CSPs de restrição única, multi-hop ou planos. No entanto, benchmarks existentes (por exemplo, Natural Questions, HotpotQA) falham em capturar essa complexidade, enquanto conjuntos de dados sintéticos recentes frequentemente introduzem raciocínios de atalho, vazamento de conhecimento ou carecem de profundidade estrutural suficiente. Para abordar essa lacuna, introduzimos o InfoSeek, uma estrutura escalável para sintetizar tarefas complexas de Pesquisa Profunda. O InfoSeek utiliza um sistema de agentes duplos para construir recursivamente uma Árvore de Pesquisa a partir de páginas da web em larga escala, desfocando nós intermediários em subproblemas válidos e convertendo essas árvores em perguntas em linguagem natural que exigem a travessia de toda a hierarquia. Ele também permite uma rápida escalabilidade, gerando mais de 50 mil exemplos de treinamento, um conjunto de testes curado e trajetórias de raciocínio geradas por meio de rejeição de amostragem. Experimentos mostram que modelos treinados no InfoSeek consistentemente superam linhas de base fortes. Em um benchmark desafiador, o BrowseComp-Plus, LLMs de 3B otimizados com o InfoSeek superam modelos muito maiores de 32B e APIs comerciais leves (por exemplo, Gemini2.5-Flash), enquanto alcançam desempenho comparável a APIs mais robustas (por exemplo, Gemini2.5-Pro). Ao preservar meta-informações, como passos intermediários e rótulos de recuperação, o InfoSeek ainda suporta estratégias avançadas de otimização, incluindo design de recompensa composta e exploração em nível de trajetória. Fornecemos nossos códigos e conjuntos de dados em https://github.com/VectorSpaceLab/InfoSeek{este repositório}.
English
Large language models (LLMs) are increasingly expected to go beyond simple factual queries toward Deep Research-tasks that require decomposing questions into sub-problems, coordinating multi-step reasoning, and synthesizing evidence from diverse sources. We formalize Deep Research tasks with verifiable answers as Hierarchical Constraint Satisfaction Problems (HCSPs), which are fundamentally different from single-constraint, multi-hop, or flat CSP formulations. However, existing benchmarks (e.g., Natural Questions, HotpotQA) fail to capture this complexity, while recent synthetic datasets often introduce shortcut reasoning, knowledge leakage, or lack sufficient structural depth. To address this gap, we introduce InfoSeek, a scalable framework for synthesizing complex Deep Research tasks. InfoSeek uses a dual-agent system to recursively build a Research Tree from large-scale webpages, blurring intermediate nodes into valid sub-problems, and converting these trees into natural language questions that require traversing the full hierarchy. It also enables rapid scaling, yielding over 50K training examples, a curated test set, and reasoning trajectories generated via reject sampling. Experiments show that models trained on InfoSeek consistently outperform strong baselines. On a challenging benchmark BrowseComp-Plus, 3B LLMs optimized with InfoSeek surpass much larger 32B models and lightweight commercial APIs (e.g., Gemini2.5-Flash), while achieving performance comparable to stronger APIs (e.g., Gemini2.5-Pro). By preserving meta-information such as intermediate steps and retrieval labels, InfoSeek further supports advanced optimization strategies, including compound reward design and trajectory-level exploration. We provide our codes and datasets in https://github.com/VectorSpaceLab/InfoSeek{this repository}.
PDF663September 4, 2025