FinVault: Avaliação da Segurança de Agentes Financeiros em Ambientes de Execução Fundamentada

Resumo

Os agentes financeiros alimentados por grandes modelos de linguagem (LLMs) estão sendo cada vez mais implantados para análise de investimentos, avaliação de riscos e tomada de decisão automatizada, onde as suas capacidades de planeamento, invocação de ferramentas e manipulação de estado mutável introduzem novos riscos de segurança em ambientes financeiros de alto risco e altamente regulamentados. No entanto, as avaliações de segurança existentes focam-se maioritariamente na conformidade de conteúdo ao nível do modelo de linguagem ou em configurações abstratas de agentes, falhando em capturar riscos de segurança fundamentados na execução, decorrentes de fluxos operacionais reais e de ações que alteram o estado. Para colmatar esta lacuna, propomos o FinVault, o primeiro benchmark de segurança fundamentado na execução para agentes financeiros, compreendendo 31 cenários de sandbox orientados por casos regulatórios com bases de dados graváveis e restrições explícitas de conformidade, juntamente com 107 vulnerabilidades do mundo real e 963 casos de teste que cobrem sistematicamente injeção de prompt (prompt injection), jailbreaking, ataques financeiramente adaptados, bem como entradas benignas para avaliação de falsos positivos. Os resultados experimentais revelam que os mecanismos de defesa existentes permanecem ineficazes em configurações realistas de agentes financeiros, com taxas médias de sucesso de ataque (ASR) a atingirem ainda até 50,0% nos modelos mais avançados e a permanecerem não negligenciáveis mesmo para os sistemas mais robustos (ASR 6,7%), destacando a transferibilidade limitada dos projetos de segurança atuais e a necessidade de defesas mais específicas para o setor financeiro. O nosso código pode ser encontrado em https://github.com/aifinlab/FinVault.

English

Financial agents powered by large language models (LLMs) are increasingly deployed for investment analysis, risk assessment, and automated decision-making, where their abilities to plan, invoke tools, and manipulate mutable state introduce new security risks in high-stakes and highly regulated financial environments. However, existing safety evaluations largely focus on language-model-level content compliance or abstract agent settings, failing to capture execution-grounded risks arising from real operational workflows and state-changing actions. To bridge this gap, we propose FinVault, the first execution-grounded security benchmark for financial agents, comprising 31 regulatory case-driven sandbox scenarios with state-writable databases and explicit compliance constraints, together with 107 real-world vulnerabilities and 963 test cases that systematically cover prompt injection, jailbreaking, financially adapted attacks, as well as benign inputs for false-positive evaluation. Experimental results reveal that existing defense mechanisms remain ineffective in realistic financial agent settings, with average attack success rates (ASR) still reaching up to 50.0\% on state-of-the-art models and remaining non-negligible even for the most robust systems (ASR 6.7\%), highlighting the limited transferability of current safety designs and the need for stronger financial-specific defenses. Our code can be found at https://github.com/aifinlab/FinVault.

FinVault: Avaliação da Segurança de Agentes Financeiros em Ambientes de Execução Fundamentada

FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments

Resumo

Support