Signalen: Trajectoriebemonstering en Triage voor Agent-Interacties

Samenvatting

Agentapplicaties op basis van grote taalmodellen maken steeds vaker gebruik van meerstaps interactielussen met planning, actie-uitvoering en omgevingsfeedback. Hoewel dergelijke systemen inmiddels op grote schaal worden ingezet, blijft het verbeteren ervan na implementatie een uitdaging. Agenttrajecten zijn omvangrijk en niet-deterministisch, en het beoordelen van elk traject – via menselijke beoordeling of ondersteunende LLM's – is traag en kostentechnisch onhaalbaar. Wij stellen een lichtgewicht, signaalgebaseerd raamwerk voor voor de triage van agentinteractietrajecten. Onze aanpak berekent goedkope, breed toepasbare signalen uit live interacties en koppelt deze als gestructureerde attributen voor trajecttriage, waarbij interacties worden geïdentificeerd die waarschijnlijk informatief zijn zonder het online gedrag van de agent te beïnvloeden. We ordenen signalen in een grofkorrelige taxonomie die zich uitstrekt over interactie (misalignering, stagnatie, disengagement, tevredenheid), uitvoering (falen, looping) en omgeving (uitputting), ontworpen voor berekening zonder modelaanroepen. In een gecontroleerde annotatiestudie op τ-bench, een veelgebruikte benchmark voor de evaluatie van tool-augmented agents, tonen we aan dat signaalgebaseerde steekproefname een informatiefheidspercentage van 82% bereikt, vergeleken met 74% voor heuristische filtering en 54% voor aselecte steekproefname, met een efficiëntiewinst van 1,52x per informatief traject. Het voordeel is robuust over verschillende beloningsniveaus en taakdomeinen, wat bevestigt dat signalen echte per-traject informatiefheidswinsten opleveren in plaats van alleen duidelijke mislukkingen te overrepresenteren. Deze resultaten tonen aan dat lichtgewicht signalen kunnen dienen als praktische steekproefinfrastructuur voor agentsystemen, en wijzen een pad naar voorkeursdataconstructie en optimalisatie na implementatie.

English

Agentic applications based on large language models increasingly rely on multi-step interaction loops involving planning, action execution, and environment feedback. While such systems are now deployed at scale, improving them post-deployment remains challenging. Agent trajectories are voluminous and non-deterministic, and reviewing each one, whether through human review or auxiliary LLMs, is slow and cost-prohibitive. We propose a lightweight, signal-based framework for triaging agentic interaction trajectories. Our approach computes cheap, broadly applicable signals from live interactions and attaches them as structured attributes for trajectory triage, identifying interactions likely to be informative without affecting online agent behavior. We organize signals into a coarse-grained taxonomy spanning interaction (misalignment, stagnation, disengagement, satisfaction), execution (failure, loop), and environment (exhaustion), designed for computation without model calls. In a controlled annotation study on τ-bench, a widely used benchmark for tool-augmented agent evaluation, we show that signal-based sampling achieves an 82\% informativeness rate compared to 74\% for heuristic filtering and 54\% for random sampling, with a 1.52x efficiency gain per informative trajectory. The advantage is robust across reward strata and task domains, confirming that signals provide genuine per-trajectory informativeness gains rather than merely oversampling obvious failures. These results show that lightweight signals can serve as practical sampling infrastructure for agentic systems, and suggest a path toward preference data construction and post-deployment optimization.

Signalen: Trajectoriebemonstering en Triage voor Agent-Interacties

Signals: Trajectory Sampling and Triage for Agentic Interactions

Samenvatting

Support