FINESSE-Bench: Una Suite de Evaluación Jerárquica para el Conocimiento del Dominio Financiero y el Análisis Técnico en Modelos de Lenguaje de Gran Escala

Resumen

Los modelos de lenguaje de gran tamaño (LLMs) se están aplicando cada vez más al análisis financiero, la elaboración de informes, el apoyo a decisiones de inversión, la gestión de riesgos, el cumplimiento normativo y la formación profesional. Sin embargo, la evaluación sólida de su competencia en el ámbito financiero sigue siendo incompleta. Referencias abiertas ampliamente utilizadas como FinQA, ConvFinQA y TAT-QA han desempeñado un papel importante en el avance de la respuesta a preguntas financieras y el razonamiento numérico, pero se centran principalmente en la respuesta a preguntas sobre informes financieros y no proporcionan una jerarquía explícita de dificultad profesional. Recursos más amplios, como FinanceBench, PIXIU, FinBen y FLaME, expanden la cobertura de las tareas financieras, pero el problema de evaluar la transición desde el conocimiento fundamental hasta el razonamiento financiero de nivel experto sigue abierto. En este trabajo presentamos FINESSE-Bench, un conjunto de ocho referencias especializadas que comprenden 3,993 preguntas para la evaluación jerárquica de las competencias financieras en los LLMs. FINESSE-Bench combina conjuntos de datos orientados a exámenes inspirados en certificaciones profesionales (Niveles 1-3 tipo CFA, Nivel 2 tipo CMT y Nivel 1 tipo CFTe), colecciones de tareas aplicadas de trading y una referencia de olimpiada en idioma ruso. Este diseño permite evaluar la amplitud del dominio, la degradación del rendimiento a medida que aumenta la dificultad, la capacidad para resolver tareas computacionales y el comportamiento del modelo en ámbitos financieros especializados. También describimos un protocolo de evaluación unificado que abarca preguntas de opción múltiple, respuestas numéricas y respuestas breves abiertas, junto con un esquema de puntuación automatizada para respuestas libres basado en el paradigma de LLM como juez. FINESSE-Bench se concibe tanto como un complemento a las referencias financieras abiertas existentes como una herramienta para una evaluación más sustancial de las competencias financieras profesionalmente relevantes en los modelos de lenguaje de gran tamaño.

English

Large language models (LLMs) are increasingly being applied to financial analysis, reporting, investment decision support, risk management, compliance, and professional training. However, robust evaluation of their domain competence in finance remains incomplete. Widely used open benchmarks such as FinQA, ConvFinQA, and TAT-QA have played an important role in advancing financial question answering and numerical reasoning, but they focus primarily on question answering over financial reports and do not provide an explicit hierarchy of professional difficulty. Broader resources, including FinanceBench, PIXIU, FinBen, and FLaME, expand the coverage of financial tasks, yet the problem of evaluating the transition from foundational knowledge to expert-level financial reasoning remains open. In this work, we present FINESSE-Bench, a suite of eight specialized benchmarks comprising 3,993 questions for hierarchical evaluation of financial competencies in LLMs. FINESSE-Bench combines exam-oriented datasets inspired by professional certifications (CFA-like Levels 1-3, CMT-like Level 2, and CFTe-like Level 1), applied trading task collections, and a Russian-language olympiad benchmark. This design enables evaluation of domain breadth, performance degradation as difficulty increases, the ability to solve computational tasks, and model behavior in specialized financial domains. We also describe a unified evaluation protocol covering multiple-choice questions, numerical answers, and short open-ended responses, together with an automated scoring scheme for freeform answers based on the LLM-as-judge paradigm. FINESSE-Bench is intended both as a complement to existing open financial benchmarks and as a tool for more substantive evaluation of professionally relevant financial competencies in large language models.