Onde os Agentes de Pesquisa Profunda Erram? Localização de Erros em Nível de Segmento em Trajetórias de Agentes

Resumo

Agentes de pesquisa profunda resolvem tarefas por meio de trajetórias longas de busca, uso de ferramentas, inspeção de evidências e síntese de respostas. A avaliação baseada em respostas finais mostra se um agente obtém sucesso, mas não quais partes da trajetória tornam a resposta não confiável. Estudamos a localização de erros em nível de segmento para agentes de pesquisa profunda. Coletamos 2.790 trajetórias reais de dois frameworks de agentes, três modelos de base e três benchmarks, convertemos logs brutos em segmentos semânticos e anotamos segmentos de erro prejudiciais por meio de revisão especializada assistida por LLM. A partir dessas anotações, construímos o TELBench, um benchmark com 1.000 instâncias para identificar segmentos de erro entre exploração normal, buscas malsucedidas, hipóteses tentativas e ruído inofensivo. Propomos ainda o DRIFT, um framework de auditoria centrada em afirmações que rastreia as afirmações do agente, verifica seu suporte nas evidências da trajetória e marca segmentos onde afirmações não suportadas ou conflitantes afetam o caminho da resposta. Experimentos em famílias de modelos e frameworks de auditoria mostram que o DRIFT melhora a localização de erros em nível de segmento e a precisão do primeiro erro em até 30 pontos percentuais. Nosso trabalho fornece uma visão em nível de processo da confiabilidade em agentes de pesquisa profunda.

English

Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based on final answers shows whether an agent succeeds, but not which parts of the trajectory make the answer unreliable. We study span-level error localization for deep-research agents. We collect 2,790 real trajectories from two agent frameworks, three backbone models, and three benchmarks, convert raw logs into semantic spans, and annotate harmful error spans through LLM-assisted expert review. From these annotations, we build TELBench, a 1,000-instance benchmark for identifying error spans among normal exploration, failed searches, tentative hypotheses, and harmless noise. We further propose DRIFT, a claim-centric auditing framework that tracks agent claims, checks their support in trajectory evidence, and marks spans where unsupported or conflicting claims affect the answer path. Experiments across model families and auditing frameworks show that DRIFT improves span-level error localization and first-error accuracy by up to 30 percentage points. Our work provides a process-level view of reliability in deep-research agents.