SAGE: Geração de Dados Agente Direcionável para Busca Profunda com Feedback de Execução

Resumo

Os agentes de busca profunda, que visam responder a perguntas complexas exigindo raciocínio em múltiplos documentos, podem acelerar significativamente o processo de busca por informação. A recolha de anotações humanas para esta aplicação é proibitivamente cara devido às trajetórias de exploração longas e complexas. Propomos um pipeline agentivo que gera automaticamente pares pergunta-resposta de busca profunda, de alta qualidade e com dificuldade controlada, para um determinado corpus e um nível de dificuldade alvo. O nosso pipeline, SAGE, consiste num gerador de dados que propõe pares QA e num agente de busca que tenta resolver a pergunta gerada e fornecer *feedback* de execução ao gerador de dados. Os dois componentes interagem ao longo de múltiplas rondas para refinar iterativamente os pares pergunta-resposta até estes satisfazerem o nível de dificuldade alvo. A nossa avaliação intrínseca mostra que o SAGE gera perguntas que exigem estratégias de raciocínio diversificadas, aumentando simultaneamente a correção e a dificuldade dos dados gerados. A nossa avaliação extrínseca demonstra um ganho de desempenho relativo de até 23% em *benchmarks* populares de busca profunda, ao treinar agentes de busca profunda com os nossos dados sintéticos. Experiências adicionais mostram que agentes treinados com os nossos dados conseguem adaptar-se da recuperação em corpus fixo para a Pesquisa Google durante a inferência, sem treino adicional.

English

Deep search agents, which aim to answer complex questions requiring reasoning across multiple documents, can significantly speed up the information-seeking process. Collecting human annotations for this application is prohibitively expensive due to long and complex exploration trajectories. We propose an agentic pipeline that automatically generates high quality, difficulty-controlled deep search question-answer pairs for a given corpus and a target difficulty level. Our pipeline, SAGE, consists of a data generator which proposes QA pairs and a search agent which attempts to solve the generated question and provide execution feedback for the data generator. The two components interact over multiple rounds to iteratively refine the question-answer pairs until they satisfy the target difficulty level. Our intrinsic evaluation shows SAGE generates questions that require diverse reasoning strategies, while significantly increases the correctness and difficulty of the generated data. Our extrinsic evaluation demonstrates up to 23% relative performance gain on popular deep search benchmarks by training deep search agents with our synthetic data. Additional experiments show that agents trained on our data can adapt from fixed-corpus retrieval to Google Search at inference time, without further training.