ChatPaper.aiChatPaper

FinVault: 실행 기반 환경에서 금융 에이전트 안전성 벤치마킹

FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

January 9, 2026
저자: Zhi Yang, Runguo Li, Qiqi Qiang, Jiashun Wang, Fangqi Lou, Mengping Li, Dongpo Cheng, Rui Xu, Heng Lian, Shuo Zhang, Xiaolong Liang, Xiaoming Huang, Zheng Wei, Zhaowei Liu, Xin Guo, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI

초록

대규모 언어 모델(LLM) 기반 금융 에이전트가 투자 분석, 위험 평가, 자동 의사 결정 분야에 점차 배포되면서, 계획 수립, 도구 호출, 변경 가능한 상태 조작 능력으로 인해 고위험 및 고규제 금융 환경에서 새로운 보안 위험이 발생하고 있습니다. 그러나 기존의 안전성 평가는 주로 언어 모델 수준의 콘텐츠 준수 또는 추상적인 에이전트 설정에 초점을 맞추어, 실제 운영 워크플로우와 상태 변경 작업에서 비롯되는 실행 기반 위험을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해 우리는 금융 에이전트를 위한 최초의 실행 기반 보안 벤치마크인 FinVault를 제안합니다. FinVault는 상태 기록 가능 데이터베이스와 명시적 규제 준수 제약 조건을 갖춘 31개의 규제 사례 기반 샌드박스 시나리오, 107개의 실제 취약점, 963개의 테스트 케이스로 구성되어 있으며, 프롬프트 인젝션, 탈옥(jailbreaking), 금융 맞춤형 공격과 함께 오탐(false-positive) 평가를 위한 정상 입력을 체계적으로 다룹니다. 실험 결과, 기존 방어 메커니즘은 현실적인 금융 에이전트 환경에서 여전히 효과적이지 않으며, 최첨단 모델에서 평균 공격 성공률(ASR)이 50.0%에 달하고 가장 강력한 시스템에서도 공격 성공률(6.7%)이 무시할 수 없는 수준으로 나타나 현재 안전성 설계의 제한된 전이성과 금융 특화 강력한 방어 체계의 필요성을 강조합니다. 우리의 코드는 https://github.com/aifinlab/FinVault에서 확인할 수 있습니다.
English
Financial agents powered by large language models (LLMs) are increasingly deployed for investment analysis, risk assessment, and automated decision-making, where their abilities to plan, invoke tools, and manipulate mutable state introduce new security risks in high-stakes and highly regulated financial environments. However, existing safety evaluations largely focus on language-model-level content compliance or abstract agent settings, failing to capture execution-grounded risks arising from real operational workflows and state-changing actions. To bridge this gap, we propose FinVault, the first execution-grounded security benchmark for financial agents, comprising 31 regulatory case-driven sandbox scenarios with state-writable databases and explicit compliance constraints, together with 107 real-world vulnerabilities and 963 test cases that systematically cover prompt injection, jailbreaking, financially adapted attacks, as well as benign inputs for false-positive evaluation. Experimental results reveal that existing defense mechanisms remain ineffective in realistic financial agent settings, with average attack success rates (ASR) still reaching up to 50.0\% on state-of-the-art models and remaining non-negligible even for the most robust systems (ASR 6.7\%), highlighting the limited transferability of current safety designs and the need for stronger financial-specific defenses. Our code can be found at https://github.com/aifinlab/FinVault.
PDF81January 23, 2026