Aufbau einer grundlegenden Leitplanke für allgemeine agentenbasierte Systeme durch synthetische Daten
Building a Foundational Guardrail for General Agentic Systems via Synthetic Data
October 10, 2025
papers.authors: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI
papers.abstract
Während LLM-Agenten mehrstufige Aufgaben planen können, ist das Eingreifen in der Planungsphase – bevor eine Aktion ausgeführt wird – oft der sicherste Weg, um Schaden zu verhindern, da bestimmte Risiken, sobald sie umgesetzt sind, schwerwiegende Folgen haben können. Allerdings operieren bestehende Sicherheitsvorkehrungen meist nach der Ausführung, was schwer skalierbar ist und wenig Raum für kontrollierbare Überwachung auf der Planungsebene lässt. Um diese Herausforderung zu bewältigen, beleuchten wir drei kritische Lücken in der aktuellen Forschung: die Datenlücke, die Modelllücke und die Evaluationslücke. Um die Datenlücke zu schließen, führen wir AuraGen ein, eine kontrollierbare Engine, die (i) harmlose Trajektorien synthetisiert, (ii) kategoriebezogene Risiken mit kalibrierter Schwierigkeit injiziert und (iii) Ausgaben über ein automatisiertes Belohnungsmodell filtert, wodurch große und zuverlässige Korpora für die Sicherheit vor der Ausführung erzeugt werden. Um die Modelllücke bei den Sicherheitsvorkehrungen zu schließen, schlagen wir ein grundlegendes Sicherheitsmodell namens Safiron vor, das einen plattformübergreifenden Planungsadapter mit einem kompakten Sicherheitsmodell kombiniert. Der Adapter vereinheitlicht verschiedene Eingabeformate, während Safiron riskante Fälle markiert, Risikotypen zuweist und Begründungen generiert; durch zweistufiges Training mit einem breit erforschten Datenrezept erreicht Safiron eine robuste Übertragbarkeit über verschiedene Kontexte hinweg. Um die Evaluationslücke zu schließen, veröffentlichen wir Pre-Exec Bench, einen realistischen Benchmark, der diverse Werkzeuge und verzweigte Trajektorien abdeckt und die Erkennung, feinkörnige Kategorisierung, Erklärung sowie plattformübergreifende Generalisierung in menschlich verifizierten Szenarien misst. Umfangreiche Experimente zeigen konsistente Verbesserungen des vorgeschlagenen Sicherheitsmodells gegenüber starken Baselines auf Pre-Exec Bench, und Ablationen destillieren weiterhin umsetzbare Praktiken, wodurch eine praktische Vorlage für sicherere agentenbasierte Systeme bereitgestellt wird.
English
While LLM agents can plan multi-step tasks, intervening at the planning
stage-before any action is executed-is often the safest way to prevent harm,
since certain risks can lead to severe consequences once carried out. However,
existing guardrails mostly operate post-execution, which is difficult to scale
and leaves little room for controllable supervision at the plan level. To
address this challenge, we highlight three critical gaps in current research:
data gap, model gap, and evaluation gap. To close the data gap, we introduce
AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii)
injects category-labeled risks with calibrated difficulty, and (iii) filters
outputs via an automated reward model, producing large and reliable corpora for
pre-execution safety. To close the guardian model gap, we propose a
foundational guardrail Safiron, combining a cross-planner adapter with a
compact guardian model. The adapter unifies different input formats, while
Safiron flags risky cases, assigns risk types, and generates rationales;
trained in two stages with a broadly explored data recipe, Safiron achieves
robust transfer across settings. To close the evaluation gap, we release
Pre-Exec Bench, a realistic benchmark covering diverse tools and branching
trajectories, which measures detection, fine-grained categorization,
explanation, and cross-planner generalization in human-verified scenarios.
Extensive experiments demonstrate consistent gains of the proposed guardrail
over strong baselines on Pre-Exec Bench, and ablations further distill
actionable practices, providing a practical template for safer agentic systems.