ChatPaper.aiChatPaper

Construyendo una Barrera de Seguridad Fundamental para Sistemas Agentes Generales mediante Datos Sintéticos

Building a Foundational Guardrail for General Agentic Systems via Synthetic Data

October 10, 2025
Autores: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI

Resumen

Si bien los agentes de LLM pueden planificar tareas de múltiples pasos, intervenir en la etapa de planificación, antes de que se ejecute cualquier acción, suele ser la forma más segura de prevenir daños, ya que ciertos riesgos pueden tener consecuencias graves una vez llevados a cabo. Sin embargo, las salvaguardias existentes operan principalmente después de la ejecución, lo que es difícil de escalar y deja poco margen para una supervisión controlable a nivel de plan. Para abordar este desafío, destacamos tres brechas críticas en la investigación actual: brecha de datos, brecha de modelos y brecha de evaluación. Para cerrar la brecha de datos, presentamos AuraGen, un motor controlable que (i) sintetiza trayectorias benignas, (ii) inyecta riesgos etiquetados por categoría con dificultad calibrada y (iii) filtra las salidas mediante un modelo de recompensa automatizado, produciendo grandes y confiables corpus para la seguridad previa a la ejecución. Para cerrar la brecha del modelo guardián, proponemos una salvaguardia fundamental llamada Safiron, que combina un adaptador de planificación cruzada con un modelo guardián compacto. El adaptador unifica diferentes formatos de entrada, mientras que Safiron marca casos riesgosos, asigna tipos de riesgo y genera justificaciones; entrenado en dos etapas con una receta de datos ampliamente explorada, Safiron logra una transferencia robusta en diferentes configuraciones. Para cerrar la brecha de evaluación, lanzamos Pre-Exec Bench, un punto de referencia realista que cubre diversas herramientas y trayectorias ramificadas, el cual mide la detección, categorización fina, explicación y generalización entre planificadores en escenarios verificados por humanos. Experimentos extensos demuestran ganancias consistentes de la salvaguardia propuesta sobre líneas base sólidas en Pre-Exec Bench, y las ablaciones destilan prácticas accionables, proporcionando una plantilla práctica para sistemas agentes más seguros.
English
While LLM agents can plan multi-step tasks, intervening at the planning stage-before any action is executed-is often the safest way to prevent harm, since certain risks can lead to severe consequences once carried out. However, existing guardrails mostly operate post-execution, which is difficult to scale and leaves little room for controllable supervision at the plan level. To address this challenge, we highlight three critical gaps in current research: data gap, model gap, and evaluation gap. To close the data gap, we introduce AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii) injects category-labeled risks with calibrated difficulty, and (iii) filters outputs via an automated reward model, producing large and reliable corpora for pre-execution safety. To close the guardian model gap, we propose a foundational guardrail Safiron, combining a cross-planner adapter with a compact guardian model. The adapter unifies different input formats, while Safiron flags risky cases, assigns risk types, and generates rationales; trained in two stages with a broadly explored data recipe, Safiron achieves robust transfer across settings. To close the evaluation gap, we release Pre-Exec Bench, a realistic benchmark covering diverse tools and branching trajectories, which measures detection, fine-grained categorization, explanation, and cross-planner generalization in human-verified scenarios. Extensive experiments demonstrate consistent gains of the proposed guardrail over strong baselines on Pre-Exec Bench, and ablations further distill actionable practices, providing a practical template for safer agentic systems.
PDF262October 14, 2025