ChatPaper.aiChatPaper

FinVault: 実行基盤型環境における金融エージェントの安全性ベンチマーク

FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

January 9, 2026
著者: Zhi Yang, Runguo Li, Qiqi Qiang, Jiashun Wang, Fangqi Lou, Mengping Li, Dongpo Cheng, Rui Xu, Heng Lian, Shuo Zhang, Xiaolong Liang, Xiaoming Huang, Zheng Wei, Zhaowei Liu, Xin Guo, Huacan Wang, Ronghao Chen, Liwen Zhang
cs.AI

要旨

大規模言語モデル(LLM)を中核とする金融エージェントが、投資分析、リスク評価、自動意思決定において導入が進んでいる。それらが持つ計画立案能力、ツール呼び出し機能、可変状態の操作能力は、高い利害が絡み厳格に規制された金融環境において、新たなセキュリティリスクをもたらす。しかし、既存の安全性評価は、言語モデルレベルのコンテンツ準拠や抽象的なエージェント設定に焦点が当てられがちであり、実際の業務ワークフローや状態変化を伴うアクションから生じる、実行に根差したリスクを捉え切れていない。この隔たりを埋めるため、我々は金融エージェント向け初の実行ベースのセキュリティベンチマーク「FinVault」を提案する。FinVaultは、状態書き込み可能なデータベースと明示的なコンプライアンス制約を備えた31の規制事例駆動型サンドボックスシナリオ、107の実世界の脆弱性、963のテストケースで構成され、プロンプトインジェクション、ジェイルブレイキング、金融特化型攻撃、および偽陽性評価のための良性入力を体系的に網羅している。実験結果から、既存の防御メカニズムは現実的な金融エージェントの設定下では依然として効果が不十分であり、最先端のモデルでは平均攻撃成功率(ASR)が最大50.0%に達し、最も堅牢なシステムにおいても無視できない値(ASR 6.7%)を維持することが明らかになった。これは、現在の安全性設計の限界と、金融特化のより強力な防御策の必要性を浮き彫りにしている。コードはhttps://github.com/aifinlab/FinVault で公開している。
English
Financial agents powered by large language models (LLMs) are increasingly deployed for investment analysis, risk assessment, and automated decision-making, where their abilities to plan, invoke tools, and manipulate mutable state introduce new security risks in high-stakes and highly regulated financial environments. However, existing safety evaluations largely focus on language-model-level content compliance or abstract agent settings, failing to capture execution-grounded risks arising from real operational workflows and state-changing actions. To bridge this gap, we propose FinVault, the first execution-grounded security benchmark for financial agents, comprising 31 regulatory case-driven sandbox scenarios with state-writable databases and explicit compliance constraints, together with 107 real-world vulnerabilities and 963 test cases that systematically cover prompt injection, jailbreaking, financially adapted attacks, as well as benign inputs for false-positive evaluation. Experimental results reveal that existing defense mechanisms remain ineffective in realistic financial agent settings, with average attack success rates (ASR) still reaching up to 50.0\% on state-of-the-art models and remaining non-negligible even for the most robust systems (ASR 6.7\%), highlighting the limited transferability of current safety designs and the need for stronger financial-specific defenses. Our code can be found at https://github.com/aifinlab/FinVault.
PDF92January 25, 2026