PrefixGuard : Des traces d'agents LLM aux moniteurs d'alerte de défaillance en ligne

Résumé

Les agents basés sur des modèles de langage de grande taille (LLM) exécutent désormais des tâches longues utilisant des outils, où les vérifications des résultats finaux peuvent arriver trop tard pour permettre une intervention. L'alerte en ligne nécessite des moniteurs de préfixe légers sur des traces hétérogènes, mais les schémas d'événements écrits manuellement sont fragiles et l'évaluation par LLM au moment du déploiement est coûteuse. Nous présentons PrefixGuard, un cadre trace-vers-moniteur avec une étape d'induction StepView hors ligne suivie d'un apprentissage supervisé du moniteur. StepView induit des adaptateurs d'étapes typés déterministes à partir d'échantillons de traces brutes, et le moniteur apprend une abstraction d'événements et un scoreur de risque de préfixe à partir des résultats terminaux. Sur WebArena, τ^2-Bench, SkillsBench et TerminalBench, les moniteurs PrefixGuard les plus performants atteignent des AUPRC de 0,900/0,710/0,533/0,557. En utilisant le backend le plus performant au sein de chaque représentation, ils améliorent les contrôles en texte brut de +0,137 AUPRC en moyenne. Les juges LLM restent sensiblement plus faibles sous le même protocole d'alerte par préfixe. Nous dérivons également un plafond d'observabilité sur l'aire sous la courbe précision-rappel basée sur les scores (AUPRC), qui sépare l'erreur du moniteur des échecs dépourvus de preuves dans le préfixe observé. Pour l'audit à états finis, l'extraction post-hoc d'automates finis déterministes (DFA) reste compacte sur WebArena et τ^2-Bench (29 et 20 états) mais s'étend à 151 et 187 états sur SkillsBench et TerminalBench. Enfin, les diagnostics de première alerte montrent qu'un bon classement n'implique pas une utilité de déploiement : WebArena se classe bien mais ne parvient pas à supporter des alertes à faible taux de fausses alarmes, tandis que τ^2-Bench et TerminalBench conservent des alertes précoces plus actionnables. Ensemble, ces résultats positionnent PrefixGuard comme une recette pratique de synthèse de moniteurs avec des diagnostics explicites pour déterminer quand les alertes par préfixe se traduisent en interventions actionnables.

English

Large language model (LLM) agents now execute long, tool-using tasks where final outcome checks can arrive too late for intervention. Online warning requires lightweight prefix monitors over heterogeneous traces, but hand-authored event schemas are brittle and deployment-time LLM judging is costly. We introduce PrefixGuard, a trace-to-monitor framework with an offline StepView induction step followed by supervised monitor training. StepView induces deterministic typed-step adapters from raw trace samples, and the monitor learns an event abstraction and prefix-risk scorer from terminal outcomes. Across WebArena, τ^2-Bench, SkillsBench, and TerminalBench, the strongest PrefixGuard monitors reach 0.900/0.710/0.533/0.557 AUPRC. Using the strongest backend within each representation, they improve over raw-text controls by an average of +0.137 AUPRC. LLM judges remain substantially weaker under the same prefix-warning protocol. We also derive an observability ceiling on score-based area under the precision-recall curve (AUPRC) that separates monitor error from failures lacking evidence in the observed prefix. For finite-state audit, post-hoc deterministic finite automaton (DFA) extraction remains compact on WebArena and τ^2-Bench (29 and 20 states) but expands to 151 and 187 states on SkillsBench and TerminalBench. Finally, first-alert diagnostics show that strong ranking does not imply deployment utility: WebArena ranks well yet fails to support low-false-alarm alerts, whereas τ^2-Bench and TerminalBench retain more actionable early alerts. Together, these results position PrefixGuard as a practical monitor-synthesis recipe with explicit diagnostics for when prefix warnings translate into actionable interventions.