PrefixGuard: Van LLM-Agent-sporen naar online faalwaarschuwingsmonitoren

Samenvatting

Grote taalmodellen (LLM) agenten voeren nu langdurige, gereedschapsgebruikende taken uit waarbij controles van de uiteindelijke uitkomst te laat kunnen komen voor interventie. Online waarschuwing vereist lichtgewicht prefixmonitors over heterogene traces, maar handgeschreven eventschema's zijn broos en LLM-beoordeling tijdens de uitvoering is kostbaar. We introduceren PrefixGuard, een trace-naar-monitor raamwerk met een offline StepView-inductiestap gevolgd door gesuperviseerde monitortraining. StepView induceert deterministische getypeerde stapadapters uit ruwe tracevoorbeelden, en de monitor leert een eventabstractie en prefix-risicoscoorder van terminale uitkomsten. Op WebArena, τ^2-Bench, SkillsBench en TerminalBench bereiken de sterkste PrefixGuard-monitors 0,900/0,710/0,533/0,557 AUPRC. Bij gebruik van de sterkste backend binnen elke representatie verbeteren ze met gemiddeld +0,137 AUPRC ten opzichte van ruwe-tekstcontroles. LLM-beoordelaars blijven aanzienlijk zwakker onder hetzelfde prefix-waarschuwingsprotocol. We leiden ook een waarneembaarheidsplafond af voor score-gebaseerde oppervlakte onder de precisie-recall curve (AUPRC) die monitorfouten scheidt van falen waarbij bewijs in de waargenomen prefix ontbreekt. Voor eindige-toestandsaudit blijft post-hoc extractie van deterministische eindige automaten (DFA) compact op WebArena en τ^2-Bench (29 en 20 toestanden), maar breidt uit naar 151 en 187 toestanden op SkillsBench en TerminalBench. Tot slot tonen first-alert diagnostieken aan dat sterke rangschikking niet hoeft te leiden tot bruikbaarheid in de praktijk: WebArena rangschikt goed maar faalt in het ondersteunen van waarschuwingen met weinig fout-positieven, terwijl τ^2-Bench en TerminalBench meer bruikbare vroege waarschuwingen behouden. Samen positioneren deze resultaten PrefixGuard als een praktisch monitor-syntheserecept met expliciete diagnostiek voor wanneer prefixwaarschuwingen leiden tot bruikbare interventies.

English

Large language model (LLM) agents now execute long, tool-using tasks where final outcome checks can arrive too late for intervention. Online warning requires lightweight prefix monitors over heterogeneous traces, but hand-authored event schemas are brittle and deployment-time LLM judging is costly. We introduce PrefixGuard, a trace-to-monitor framework with an offline StepView induction step followed by supervised monitor training. StepView induces deterministic typed-step adapters from raw trace samples, and the monitor learns an event abstraction and prefix-risk scorer from terminal outcomes. Across WebArena, τ^2-Bench, SkillsBench, and TerminalBench, the strongest PrefixGuard monitors reach 0.900/0.710/0.533/0.557 AUPRC. Using the strongest backend within each representation, they improve over raw-text controls by an average of +0.137 AUPRC. LLM judges remain substantially weaker under the same prefix-warning protocol. We also derive an observability ceiling on score-based area under the precision-recall curve (AUPRC) that separates monitor error from failures lacking evidence in the observed prefix. For finite-state audit, post-hoc deterministic finite automaton (DFA) extraction remains compact on WebArena and τ^2-Bench (29 and 20 states) but expands to 151 and 187 states on SkillsBench and TerminalBench. Finally, first-alert diagnostics show that strong ranking does not imply deployment utility: WebArena ranks well yet fails to support low-false-alarm alerts, whereas τ^2-Bench and TerminalBench retain more actionable early alerts. Together, these results position PrefixGuard as a practical monitor-synthesis recipe with explicit diagnostics for when prefix warnings translate into actionable interventions.

PrefixGuard: Van LLM-Agent-sporen naar online faalwaarschuwingsmonitoren

PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

Samenvatting

Support