ChatPaper.aiChatPaper

Het bouwen van een fundamentele beveiliging voor algemene agent-gebaseerde systemen via synthetische data

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

October 10, 2025
Auteurs: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI

Samenvatting

Hoewel LLM-agenten multi-staps taken kunnen plannen, is ingrijpen tijdens de planningsfase - voordat enige actie wordt uitgevoerd - vaak de veiligste manier om schade te voorkomen, aangezien bepaalde risico's tot ernstige gevolgen kunnen leiden zodra ze worden uitgevoerd. Bestaande beveiligingsmaatregelen werken echter meestal post-executie, wat moeilijk schaalbaar is en weinig ruimte laat voor controleerbaar toezicht op planniveau. Om deze uitdaging aan te pakken, belichten we drie kritieke hiaten in het huidige onderzoek: de datakloof, de modelkloof en de evaluatiekloof. Om de datakloof te dichten, introduceren we AuraGen, een controleerbare engine die (i) goedaardige trajecten synthetiseert, (ii) categorie-gelabelde risico's injecteert met gekalibreerde moeilijkheidsgraad, en (iii) outputs filtert via een automatisch beloningsmodel, waardoor grote en betrouwbare corpora worden geproduceerd voor pre-executie veiligheid. Om de bewakingsmodelkloof te dichten, stellen we een fundamentele beveiligingsmaatregel Safiron voor, die een cross-planner adapter combineert met een compact bewakingsmodel. De adapter verenigt verschillende invoerformaten, terwijl Safiron risicovolle gevallen signaleert, risicotypen toekent en rationale genereert; getraind in twee fasen met een breed verkend datarecept, bereikt Safiron robuuste overdraagbaarheid over verschillende instellingen. Om de evaluatiekloof te dichten, brengen we Pre-Exec Bench uit, een realistische benchmark die diverse tools en vertakkende trajecten omvat, die detectie, fijnmazige categorisatie, uitleg en cross-planner generalisatie meet in door mensen geverifieerde scenario's. Uitgebreide experimenten tonen consistente verbeteringen van de voorgestelde beveiligingsmaatregel ten opzichte van sterke baselines op Pre-Exec Bench, en ablatie-experimenten destilleren verder bruikbare praktijken, waardoor een praktische sjabloon wordt geboden voor veiliger agent-systemen.
English
While LLM agents can plan multi-step tasks, intervening at the planning stage-before any action is executed-is often the safest way to prevent harm, since certain risks can lead to severe consequences once carried out. However, existing guardrails mostly operate post-execution, which is difficult to scale and leaves little room for controllable supervision at the plan level. To address this challenge, we highlight three critical gaps in current research: data gap, model gap, and evaluation gap. To close the data gap, we introduce AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii) injects category-labeled risks with calibrated difficulty, and (iii) filters outputs via an automated reward model, producing large and reliable corpora for pre-execution safety. To close the guardian model gap, we propose a foundational guardrail Safiron, combining a cross-planner adapter with a compact guardian model. The adapter unifies different input formats, while Safiron flags risky cases, assigns risk types, and generates rationales; trained in two stages with a broadly explored data recipe, Safiron achieves robust transfer across settings. To close the evaluation gap, we release Pre-Exec Bench, a realistic benchmark covering diverse tools and branching trajectories, which measures detection, fine-grained categorization, explanation, and cross-planner generalization in human-verified scenarios. Extensive experiments demonstrate consistent gains of the proposed guardrail over strong baselines on Pre-Exec Bench, and ablations further distill actionable practices, providing a practical template for safer agentic systems.
PDF262October 14, 2025