Создание базового защитного механизма для универсальных агентных систем с использованием синтетических данных
Building a Foundational Guardrail for General Agentic Systems via Synthetic Data
October 10, 2025
Авторы: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI
Аннотация
Хотя агенты на основе крупных языковых моделей (LLM) способны планировать многошаговые задачи, вмешательство на этапе планирования — до выполнения каких-либо действий — часто является самым безопасным способом предотвращения вреда, поскольку определенные риски могут привести к серьезным последствиям, если их реализовать. Однако существующие защитные механизмы в основном работают постфактум, что сложно масштабировать и оставляет мало возможностей для контролируемого надзора на уровне плана. Чтобы решить эту проблему, мы выделяем три ключевых пробела в текущих исследованиях: пробел в данных, пробел в моделях и пробел в оценке. Для устранения пробела в данных мы представляем AuraGen — управляемый механизм, который (i) синтезирует безопасные траектории, (ii) внедряет риски с категориальной маркировкой и калиброванной сложностью и (iii) фильтрует выходные данные с помощью автоматизированной модели вознаграждения, создавая большие и надежные корпуса для обеспечения безопасности до выполнения. Для устранения пробела в моделях-защитниках мы предлагаем базовый защитный механизм Safiron, сочетающий адаптер для кросс-планирования с компактной моделью-защитником. Адаптер унифицирует различные форматы входных данных, а Safiron выявляет рискованные случаи, присваивает типы рисков и генерирует обоснования; обученный в два этапа с использованием широко исследованного набора данных, Safiron демонстрирует устойчивую передачу знаний в различных условиях. Для устранения пробела в оценке мы выпускаем Pre-Exec Bench — реалистичный бенчмарк, охватывающий разнообразные инструменты и ветвящиеся траектории, который измеряет обнаружение, детальную категоризацию, объяснение и обобщение между планировщиками в сценариях, проверенных людьми. Многочисленные эксперименты демонстрируют стабильные преимущества предложенного защитного механизма по сравнению с сильными базовыми моделями на Pre-Exec Bench, а анализ дополнительно выделяет практические рекомендации, предоставляя практический шаблон для создания более безопасных агентских систем.
English
While LLM agents can plan multi-step tasks, intervening at the planning
stage-before any action is executed-is often the safest way to prevent harm,
since certain risks can lead to severe consequences once carried out. However,
existing guardrails mostly operate post-execution, which is difficult to scale
and leaves little room for controllable supervision at the plan level. To
address this challenge, we highlight three critical gaps in current research:
data gap, model gap, and evaluation gap. To close the data gap, we introduce
AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii)
injects category-labeled risks with calibrated difficulty, and (iii) filters
outputs via an automated reward model, producing large and reliable corpora for
pre-execution safety. To close the guardian model gap, we propose a
foundational guardrail Safiron, combining a cross-planner adapter with a
compact guardian model. The adapter unifies different input formats, while
Safiron flags risky cases, assigns risk types, and generates rationales;
trained in two stages with a broadly explored data recipe, Safiron achieves
robust transfer across settings. To close the evaluation gap, we release
Pre-Exec Bench, a realistic benchmark covering diverse tools and branching
trajectories, which measures detection, fine-grained categorization,
explanation, and cross-planner generalization in human-verified scenarios.
Extensive experiments demonstrate consistent gains of the proposed guardrail
over strong baselines on Pre-Exec Bench, and ablations further distill
actionable practices, providing a practical template for safer agentic systems.