PrefixGuard: De Trazas de Agentes LLM a Monitores de Alerta de Fallos en Tiempo Real

Resumen

Los agentes de modelos de lenguaje grandes (LLM) ahora ejecutan tareas extensas que utilizan herramientas, donde las verificaciones finales pueden llegar demasiado tarde para intervenir. Las alertas en línea requieren monitores ligeros de prefijos sobre trazas heterogéneas, pero los esquemas de eventos escritos manualmente son frágiles y la evaluación con LLM en tiempo de despliegue es costosa. Presentamos PrefixGuard, un marco de traza-a-monitor con una etapa de inducción StepView fuera de línea seguida de un entrenamiento supervisado del monitor. StepView induce adaptadores deterministas de pasos tipificados a partir de muestras de trazas crudas, y el monitor aprende una abstracción de eventos y un evaluador de riesgo de prefijos a partir de resultados terminales. En WebArena, τ^2-Bench, SkillsBench y TerminalBench, los monitores más robustos de PrefixGuard alcanzan 0.900/0.710/0.533/0.557 en AUPRC (área bajo la curva de precisión-recall). Usando el backend más fuerte dentro de cada representación, superan a los controles de texto crudo en un promedio de +0.137 AUPRC. Los evaluadores basados en LLM siguen siendo considerablemente más débiles bajo el mismo protocolo de alerta de prefijos. También derivamos un límite de observabilidad en el AUPRC basado en puntuaciones que separa el error del monitor de las fallas sin evidencia en el prefijo observado. Para auditorías de estados finitos, la extracción post-hoc de autómatas finitos deterministas (DFA) sigue siendo compacta en WebArena y τ^2-Bench (29 y 20 estados), pero se expande a 151 y 187 estados en SkillsBench y TerminalBench. Finalmente, los diagnósticos de primera alerta muestran que un buen ranking no implica utilidad en despliegue: WebArena tiene buen ranking pero no soporta alertas con baja tasa de falsas alarmas, mientras que τ^2-Bench y TerminalBench mantienen alertas tempranas más accionables. En conjunto, estos resultados posicionan a PrefixGuard como una receta práctica para la síntesis de monitores, con diagnósticos explícitos para cuándo las advertencias de prefijos se traducen en intervenciones accionables.

English

Large language model (LLM) agents now execute long, tool-using tasks where final outcome checks can arrive too late for intervention. Online warning requires lightweight prefix monitors over heterogeneous traces, but hand-authored event schemas are brittle and deployment-time LLM judging is costly. We introduce PrefixGuard, a trace-to-monitor framework with an offline StepView induction step followed by supervised monitor training. StepView induces deterministic typed-step adapters from raw trace samples, and the monitor learns an event abstraction and prefix-risk scorer from terminal outcomes. Across WebArena, τ^2-Bench, SkillsBench, and TerminalBench, the strongest PrefixGuard monitors reach 0.900/0.710/0.533/0.557 AUPRC. Using the strongest backend within each representation, they improve over raw-text controls by an average of +0.137 AUPRC. LLM judges remain substantially weaker under the same prefix-warning protocol. We also derive an observability ceiling on score-based area under the precision-recall curve (AUPRC) that separates monitor error from failures lacking evidence in the observed prefix. For finite-state audit, post-hoc deterministic finite automaton (DFA) extraction remains compact on WebArena and τ^2-Bench (29 and 20 states) but expands to 151 and 187 states on SkillsBench and TerminalBench. Finally, first-alert diagnostics show that strong ranking does not imply deployment utility: WebArena ranks well yet fails to support low-false-alarm alerts, whereas τ^2-Bench and TerminalBench retain more actionable early alerts. Together, these results position PrefixGuard as a practical monitor-synthesis recipe with explicit diagnostics for when prefix warnings translate into actionable interventions.

PrefixGuard: De Trazas de Agentes LLM a Monitores de Alerta de Fallos en Tiempo Real

PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

Resumen

Support