일반 에이전트 시스템을 위한 기초적 안전장치 구축: 합성 데이터를 통한 접근
Building a Foundational Guardrail for General Agentic Systems via Synthetic Data
October 10, 2025
저자: Yue Huang, Hang Hua, Yujun Zhou, Pengcheng Jing, Manish Nagireddy, Inkit Padhi, Greta Dolcetti, Zhangchen Xu, Subhajit Chaudhury, Ambrish Rawat, Liubov Nedoshivina, Pin-Yu Chen, Prasanna Sattigeri, Xiangliang Zhang
cs.AI
초록
LLM 에이전트가 다단계 작업을 계획할 수 있지만, 실행 전 계획 단계에서 개입하는 것이 해를 방지하는 가장 안전한 방법인 경우가 많습니다. 특정 위험은 일단 실행되면 심각한 결과를 초래할 수 있기 때문입니다. 그러나 기존의 안전장치는 대부분 실행 후에 작동하므로 확장이 어렵고 계획 수준에서 통제 가능한 감독을 위한 여지가 거의 없습니다. 이러한 문제를 해결하기 위해, 우리는 현재 연구에서 세 가지 중요한 격차를 강조합니다: 데이터 격차, 모델 격차, 그리고 평가 격차입니다. 데이터 격차를 해소하기 위해, 우리는 AuraGen을 소개합니다. 이는 (i) 안전한 궤적을 합성하고, (ii) 난이도가 조정된 범주별 위험을 주입하며, (iii) 자동화된 보상 모델을 통해 출력을 필터링하여 실행 전 안전을 위한 크고 신뢰할 수 있는 코퍼스를 생성합니다. 가디언 모델 격차를 해소하기 위해, 우리는 크로스 플래너 어댑터와 컴팩트 가디언 모델을 결합한 기초 가드레일 Safiron을 제안합니다. 어댑터는 다양한 입력 형식을 통일하고, Safiron은 위험한 사례를 플래그 지정하고, 위험 유형을 할당하며, 근거를 생성합니다. 광범위하게 탐구된 데이터 레시피로 두 단계에 걸쳐 훈련된 Safiron은 다양한 설정에서 강력한 전이를 달성합니다. 평가 격차를 해소하기 위해, 우리는 Pre-Exec Bench를 공개합니다. 이는 다양한 도구와 분기 궤적을 다루는 현실적인 벤치마크로, 인간이 검증한 시나리오에서 탐지, 세분화된 분류, 설명, 그리고 크로스 플래너 일반화를 측정합니다. 광범위한 실험은 Pre-Exec Bench에서 제안된 가드레일이 강력한 베이스라인에 비해 일관된 성능 향상을 보여주며, 추가 분석은 실행 가능한 실천 방안을 정제하여 더 안전한 에이전트 시스템을 위한 실용적인 템플릿을 제공합니다.
English
While LLM agents can plan multi-step tasks, intervening at the planning
stage-before any action is executed-is often the safest way to prevent harm,
since certain risks can lead to severe consequences once carried out. However,
existing guardrails mostly operate post-execution, which is difficult to scale
and leaves little room for controllable supervision at the plan level. To
address this challenge, we highlight three critical gaps in current research:
data gap, model gap, and evaluation gap. To close the data gap, we introduce
AuraGen, a controllable engine that (i) synthesizes benign trajectories, (ii)
injects category-labeled risks with calibrated difficulty, and (iii) filters
outputs via an automated reward model, producing large and reliable corpora for
pre-execution safety. To close the guardian model gap, we propose a
foundational guardrail Safiron, combining a cross-planner adapter with a
compact guardian model. The adapter unifies different input formats, while
Safiron flags risky cases, assigns risk types, and generates rationales;
trained in two stages with a broadly explored data recipe, Safiron achieves
robust transfer across settings. To close the evaluation gap, we release
Pre-Exec Bench, a realistic benchmark covering diverse tools and branching
trajectories, which measures detection, fine-grained categorization,
explanation, and cross-planner generalization in human-verified scenarios.
Extensive experiments demonstrate consistent gains of the proposed guardrail
over strong baselines on Pre-Exec Bench, and ablations further distill
actionable practices, providing a practical template for safer agentic systems.