PrefixGuard: от трассировок LLM-агентов к онлайн-мониторам предупреждения об отказах

Аннотация

Агенты на основе больших языковых моделей (LLM) теперь выполняют длительные задачи с использованием инструментов, где проверки конечных результатов могут поступать слишком поздно для вмешательства. Онлайн-предупреждение требует легковесных префиксных мониторов для разнородных трасс, однако созданные вручную событийные схемы хрупки, а использование LLM в качестве судьи на этапе развертывания дорого. Мы представляем PrefixGuard — фреймворк преобразования трасс в мониторы с offline-шагом индукции StepView, за которым следует обучение монитора с учителем. StepView индуцирует детерминированные адаптеры типизированных шагов из необработанных выборок трасс, а монитор обучается абстракции событий и оценщику риска префикса на основе конечных результатов. На наборах WebArena, τ^2-Bench, SkillsBench и TerminalBench сильнейшие мониторы PrefixGuard достигают AUPRC 0.900/0.710/0.533/0.557. Используя сильнейший бэкенд в каждом представлении, они превосходят текстовые контроли в среднем на +0.137 AUPRC. LLM-судьи остаются существенно слабее в том же протоколе предупреждения по префиксу. Мы также выводим потолок наблюдаемости для AUPRC (площадь под кривой точности-полноты на основе оценок), который отделяет ошибку монитора от отказов, не имеющих подтверждения в наблюдаемом префиксе. Для конечного аудита постфактумное извлечение детерминированного конечного автомата сохраняет компактность на WebArena и τ^2-Bench (29 и 20 состояний), но расширяется до 151 и 187 состояний на SkillsBench и TerminalBench. Наконец, диагностика первого предупреждения показывает, что сильное ранжирование не гарантирует полезность при развертывании: WebArena хорошо ранжируется, но не поддерживает предупреждения с низким уровнем ложных тревог, тогда как τ^2-Bench и TerminalBench сохраняют более практически значимые ранние предупреждения. В совокупности эти результаты представляют PrefixGuard как практичный рецепт синтеза мониторов с явной диагностикой того, когда предупреждения по префиксу преобразуются в практически значимые вмешательства.

English

Large language model (LLM) agents now execute long, tool-using tasks where final outcome checks can arrive too late for intervention. Online warning requires lightweight prefix monitors over heterogeneous traces, but hand-authored event schemas are brittle and deployment-time LLM judging is costly. We introduce PrefixGuard, a trace-to-monitor framework with an offline StepView induction step followed by supervised monitor training. StepView induces deterministic typed-step adapters from raw trace samples, and the monitor learns an event abstraction and prefix-risk scorer from terminal outcomes. Across WebArena, τ^2-Bench, SkillsBench, and TerminalBench, the strongest PrefixGuard monitors reach 0.900/0.710/0.533/0.557 AUPRC. Using the strongest backend within each representation, they improve over raw-text controls by an average of +0.137 AUPRC. LLM judges remain substantially weaker under the same prefix-warning protocol. We also derive an observability ceiling on score-based area under the precision-recall curve (AUPRC) that separates monitor error from failures lacking evidence in the observed prefix. For finite-state audit, post-hoc deterministic finite automaton (DFA) extraction remains compact on WebArena and τ^2-Bench (29 and 20 states) but expands to 151 and 187 states on SkillsBench and TerminalBench. Finally, first-alert diagnostics show that strong ranking does not imply deployment utility: WebArena ranks well yet fails to support low-false-alarm alerts, whereas τ^2-Bench and TerminalBench retain more actionable early alerts. Together, these results position PrefixGuard as a practical monitor-synthesis recipe with explicit diagnostics for when prefix warnings translate into actionable interventions.

PrefixGuard: от трассировок LLM-агентов к онлайн-мониторам предупреждения об отказах

PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors

Аннотация

Support