FinVault: Evaluación de la Seguridad de Agentes Financieros en Entornos de Ejecución Fundamentada

Resumen

Los agentes financieros impulsados por grandes modelos de lenguaje (LLM) se despliegan cada vez más para el análisis de inversiones, la evaluación de riesgos y la toma de decisiones automatizada, donde sus capacidades para planificar, invocar herramientas y manipular estados mutables introducen nuevos riesgos de seguridad en entornos financieros de alto riesgo y altamente regulados. Sin embargo, las evaluaciones de seguridad existentes se centran principalmente en el cumplimiento de contenido a nivel de modelo de lenguaje o en configuraciones de agentes abstractos, sin capturar los riesgos basados en la ejecución que surgen de los flujos de trabajo operativos reales y las acciones que alteran el estado. Para cerrar esta brecha, proponemos FinVault, el primer benchmark de seguridad basado en ejecución para agentes financieros, que comprende 31 escenarios de sandbox impulsados por casos regulatorios con bases de datos de escritura de estado y restricciones explícitas de cumplimiento, junto con 107 vulnerabilidades del mundo real y 963 casos de prueba que cubren sistemáticamente la inyección de prompts, el jailbreaking, los ataques adaptados financieramente, así como entradas benignas para la evaluación de falsos positivos. Los resultados experimentales revelan que los mecanismos de defensa existentes siguen siendo ineficaces en entornos realistas de agentes financieros, con tasas promedio de éxito de ataques (ASR) que aún alcanzan hasta el 50,0% en los modelos más avanzados y que siguen siendo no despreciables incluso para los sistemas más robustos (ASR 6,7%), lo que subraya la transferibilidad limitada de los diseños de seguridad actuales y la necesidad de defensas más sólidas específicas para el sector financiero. Nuestro código se puede encontrar en https://github.com/aifinlab/FinVault.

English

Financial agents powered by large language models (LLMs) are increasingly deployed for investment analysis, risk assessment, and automated decision-making, where their abilities to plan, invoke tools, and manipulate mutable state introduce new security risks in high-stakes and highly regulated financial environments. However, existing safety evaluations largely focus on language-model-level content compliance or abstract agent settings, failing to capture execution-grounded risks arising from real operational workflows and state-changing actions. To bridge this gap, we propose FinVault, the first execution-grounded security benchmark for financial agents, comprising 31 regulatory case-driven sandbox scenarios with state-writable databases and explicit compliance constraints, together with 107 real-world vulnerabilities and 963 test cases that systematically cover prompt injection, jailbreaking, financially adapted attacks, as well as benign inputs for false-positive evaluation. Experimental results reveal that existing defense mechanisms remain ineffective in realistic financial agent settings, with average attack success rates (ASR) still reaching up to 50.0\% on state-of-the-art models and remaining non-negligible even for the most robust systems (ASR 6.7\%), highlighting the limited transferability of current safety designs and the need for stronger financial-specific defenses. Our code can be found at https://github.com/aifinlab/FinVault.