Costruire una Barriera Fondamentale per Sistemi Agenti Generali tramite Dati Sintetici
Building a Foundational Guardrail for General Agentic Systems via Synthetic Data
October 10, 2025
Autori: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI
Abstract
Sebbene gli agenti LLM siano in grado di pianificare compiti multi-step, intervenire nella fase di pianificazione, prima che qualsiasi azione venga eseguita, è spesso il modo più sicuro per prevenire danni, poiché alcuni rischi possono portare a conseguenze gravi una volta messi in atto. Tuttavia, le attuali misure di sicurezza operano principalmente post-esecuzione, il che è difficile da scalare e lascia poco spazio per una supervisione controllabile a livello di piano. Per affrontare questa sfida, evidenziamo tre lacune critiche nella ricerca attuale: il divario nei dati, il divario nei modelli e il divario nella valutazione. Per colmare il divario nei dati, introduciamo AuraGen, un motore controllabile che (i) sintetizza traiettorie benigne, (ii) inietta rischi etichettati per categoria con difficoltà calibrata e (iii) filtra gli output tramite un modello di ricompensa automatizzato, producendo corpora ampi e affidabili per la sicurezza pre-esecuzione. Per colmare il divario nei modelli di guardia, proponiamo un guardrail fondamentale, Safiron, che combina un adattatore cross-planner con un modello di guardia compatto. L'adattatore unifica diversi formati di input, mentre Safiron segnala i casi rischiosi, assegna i tipi di rischio e genera motivazioni; addestrato in due fasi con una ricetta di dati ampiamente esplorata, Safiron ottiene un trasferimento robusto tra diversi contesti. Per colmare il divario nella valutazione, rilasciamo Pre-Exec Bench, un benchmark realistico che copre strumenti diversi e traiettorie ramificate, che misura il rilevamento, la categorizzazione fine, la spiegazione e la generalizzazione cross-planner in scenari verificati dall'uomo. Esperimenti estensivi dimostrano guadagni consistenti del guardrail proposto rispetto a baseline forti su Pre-Exec Bench, e le ablazioni distillano ulteriormente pratiche attuabili, fornendo un modello pratico per sistemi agentici più sicuri.
English
While LLM agents can plan multi-step tasks, intervening at the planning
stage-before any action is executed-is often the safest way to prevent harm,
since certain risks can lead to severe consequences once carried out. However,
existing guardrails mostly operate post-execution, which is difficult to scale
and leaves little room for controllable supervision at the plan level. To
address this challenge, we highlight three critical gaps in current research:
data gap, model gap, and evaluation gap. To close the data gap, we introduce
AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii)
injects category-labeled risks with calibrated difficulty, and (iii) filters
outputs via an automated reward model, producing large and reliable corpora for
pre-execution safety. To close the guardian model gap, we propose a
foundational guardrail Safiron, combining a cross-planner adapter with a
compact guardian model. The adapter unifies different input formats, while
Safiron flags risky cases, assigns risk types, and generates rationales;
trained in two stages with a broadly explored data recipe, Safiron achieves
robust transfer across settings. To close the evaluation gap, we release
Pre-Exec Bench, a realistic benchmark covering diverse tools and branching
trajectories, which measures detection, fine-grained categorization,
explanation, and cross-planner generalization in human-verified scenarios.
Extensive experiments demonstrate consistent gains of the proposed guardrail
over strong baselines on Pre-Exec Bench, and ablations further distill
actionable practices, providing a practical template for safer agentic systems.