Waar falen diepgaande onderzoeksagenten? Foutlokalisatie op fragmentniveau in agenttrajecten

Samenvatting

Diepgaande onderzoeksagenten lossen taken op door middel van lange trajecten van zoekopdrachten, toolgebruik, bewijsinspectie en antwoordsynthese. Evaluatie op basis van eindantwoorden toont of een agent slaagt, maar niet welke delen van het traject het antwoord onbetrouwbaar maken. We bestuderen foutlocalisatie op spanniveau voor diepgaande onderzoeksagenten. We verzamelen 2.790 echte trajecten van twee agentframeworks, drie backbone-modellen en drie benchmarks, converteren ruwe logs naar semantische spannen en annoteren schadelijke foutspannen via LLM-ondersteunde expertbeoordeling. Op basis van deze annotaties bouwen we TELBench, een benchmark met 1.000 instanties voor het identificeren van foutspannen te midden van normale verkenning, mislukte zoekopdrachten, voorlopige hypothesen en onschadelijke ruis. We stellen verder DRIFT voor, een claim-gecentreerd auditframework dat agentclaims volgt, hun ondersteuning in trajectbewijs controleert en spannen markeert waar niet-ondersteunde of tegenstrijdige claims het antwoordpad beïnvloeden. Experimenten over modelfamilies en auditframeworks heen tonen aan dat DRIFT de foutlocalisatie op spanniveau en de nauwkeurigheid van de eerste fout met maximaal 30 procentpunten verbetert. Ons werk biedt een procesniveauvisie op betrouwbaarheid in diepgaande onderzoeksagenten.

English

Deep-research agents solve tasks through long trajectories of search, tool use, evidence inspection, and answer synthesis. Evaluation based on final answers shows whether an agent succeeds, but not which parts of the trajectory make the answer unreliable. We study span-level error localization for deep-research agents. We collect 2,790 real trajectories from two agent frameworks, three backbone models, and three benchmarks, convert raw logs into semantic spans, and annotate harmful error spans through LLM-assisted expert review. From these annotations, we build TELBench, a 1,000-instance benchmark for identifying error spans among normal exploration, failed searches, tentative hypotheses, and harmless noise. We further propose DRIFT, a claim-centric auditing framework that tracks agent claims, checks their support in trajectory evidence, and marks spans where unsupported or conflicting claims affect the answer path. Experiments across model families and auditing frameworks show that DRIFT improves span-level error localization and first-error accuracy by up to 30 percentage points. Our work provides a process-level view of reliability in deep-research agents.