ChatPaper.aiChatPaper

Construire une barrière de sécurité fondamentale pour les systèmes agentiques généraux via des données synthétiques

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

October 10, 2025
papers.authors: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI

papers.abstract

Bien que les agents LLM puissent planifier des tâches à plusieurs étapes, intervenir au stade de la planification - avant qu'aucune action ne soit exécutée - est souvent la manière la plus sûre de prévenir les dommages, car certains risques peuvent entraîner des conséquences graves une fois mis en œuvre. Cependant, les garde-fous existants opèrent principalement après l'exécution, ce qui est difficile à mettre à l'échelle et laisse peu de place à une supervision contrôlée au niveau du plan. Pour relever ce défi, nous mettons en lumière trois lacunes critiques dans la recherche actuelle : le déficit de données, le déficit de modèles et le déficit d'évaluation. Pour combler le déficit de données, nous introduisons AuraGen, un moteur contrôlable qui (i) synthétise des trajectoires bénignes, (ii) injecte des risques étiquetés par catégorie avec une difficulté calibrée, et (iii) filtre les sorties via un modèle de récompense automatisé, produisant ainsi des corpus vastes et fiables pour la sécurité pré-exécution. Pour combler le déficit de modèles de garde-fou, nous proposons un garde-fou fondamental, Safiron, combinant un adaptateur inter-planificateur avec un modèle de garde-fou compact. L'adaptateur unifie les différents formats d'entrée, tandis que Safiron signale les cas risqués, attribue les types de risques et génère des justifications ; entraîné en deux étapes avec une recette de données largement explorée, Safiron réalise un transfert robuste entre différents contextes. Pour combler le déficit d'évaluation, nous publions Pre-Exec Bench, un benchmark réaliste couvrant divers outils et trajectoires ramifiées, qui mesure la détection, la catégorisation fine, l'explication et la généralisation inter-planificateur dans des scénarios vérifiés par des humains. Des expériences approfondies démontrent des gains constants du garde-fou proposé par rapport à des bases de référence solides sur Pre-Exec Bench, et des ablations distillent davantage des pratiques actionnables, fournissant un modèle pratique pour des systèmes agentiques plus sûrs.
English
While LLM agents can plan multi-step tasks, intervening at the planning stage-before any action is executed-is often the safest way to prevent harm, since certain risks can lead to severe consequences once carried out. However, existing guardrails mostly operate post-execution, which is difficult to scale and leaves little room for controllable supervision at the plan level. To address this challenge, we highlight three critical gaps in current research: data gap, model gap, and evaluation gap. To close the data gap, we introduce AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii) injects category-labeled risks with calibrated difficulty, and (iii) filters outputs via an automated reward model, producing large and reliable corpora for pre-execution safety. To close the guardian model gap, we propose a foundational guardrail Safiron, combining a cross-planner adapter with a compact guardian model. The adapter unifies different input formats, while Safiron flags risky cases, assigns risk types, and generates rationales; trained in two stages with a broadly explored data recipe, Safiron achieves robust transfer across settings. To close the evaluation gap, we release Pre-Exec Bench, a realistic benchmark covering diverse tools and branching trajectories, which measures detection, fine-grained categorization, explanation, and cross-planner generalization in human-verified scenarios. Extensive experiments demonstrate consistent gains of the proposed guardrail over strong baselines on Pre-Exec Bench, and ablations further distill actionable practices, providing a practical template for safer agentic systems.
PDF262October 14, 2025