FINESSE-Bench: Eine hierarchische Benchmark-Suite für Finanzdomänenwissen und technische Analyse in großen Sprachmodellen

Zusammenfassung

Große Sprachmodelle (LLMs) werden zunehmend in der Finanzanalyse, Berichterstattung, Unterstützung von Investitionsentscheidungen, Risikomanagement, Compliance und beruflichen Weiterbildung eingesetzt. Eine robuste Bewertung ihrer Fachkompetenz im Finanzwesen bleibt jedoch unvollständig. Weit verbreitete offene Benchmarks wie FinQA, ConvFinQA und TAT-QA haben eine wichtige Rolle bei der Weiterentwicklung von finanziellen Frage-Antwort-Systemen und numerischem Reasoning gespielt, konzentrieren sich jedoch hauptsächlich auf Frage-Antwort-Aufgaben über Finanzberichte und bieten keine explizite Hierarchie des professionellen Schwierigkeitsgrads. Umfassendere Ressourcen, darunter FinanceBench, PIXIU, FinBen und FLaME, erweitern die Abdeckung finanzieller Aufgaben, doch das Problem der Bewertung des Übergangs von grundlegendem Wissen zu finanziellen Reasoning auf Expertenniveau bleibt offen. In dieser Arbeit stellen wir FINESSE-Bench vor, eine Suite von acht spezialisierten Benchmarks mit 3.993 Fragen zur hierarchischen Bewertung finanzieller Kompetenzen in LLMs. FINESSE-Bench kombiniert prüfungsorientierte Datensätze, die von professionellen Zertifizierungen inspiriert sind (CFA-ähnliche Levels 1–3, CMT-ähnliches Level 2 und CFTe-ähnliches Level 1), angewandte Handelsaufgabensammlungen sowie einen russischsprachigen Olympiade-Benchmark. Dieses Design ermöglicht die Bewertung der fachlichen Breite, der Leistungsverschlechterung bei steigendem Schwierigkeitsgrad, der Fähigkeit zur Lösung rechnerischer Aufgaben sowie des Modellverhaltens in spezialisierten Finanzbereichen. Wir beschreiben zudem ein einheitliches Bewertungsprotokoll, das Multiple-Choice-Fragen, numerische Antworten und kurze offene Antworten abdeckt, sowie ein automatisiertes Bewertungsschema für Freitextantworten basierend auf dem LLM-als-Richter-Paradigma. FINESSE-Bench dient sowohl als Ergänzung zu bestehenden offenen Finanz-Benchmarks als auch als Werkzeug für eine substanziellere Bewertung beruflich relevanter finanzieller Kompetenzen in großen Sprachmodellen.

English

Large language models (LLMs) are increasingly being applied to financial analysis, reporting, investment decision support, risk management, compliance, and professional training. However, robust evaluation of their domain competence in finance remains incomplete. Widely used open benchmarks such as FinQA, ConvFinQA, and TAT-QA have played an important role in advancing financial question answering and numerical reasoning, but they focus primarily on question answering over financial reports and do not provide an explicit hierarchy of professional difficulty. Broader resources, including FinanceBench, PIXIU, FinBen, and FLaME, expand the coverage of financial tasks, yet the problem of evaluating the transition from foundational knowledge to expert-level financial reasoning remains open. In this work, we present FINESSE-Bench, a suite of eight specialized benchmarks comprising 3,993 questions for hierarchical evaluation of financial competencies in LLMs. FINESSE-Bench combines exam-oriented datasets inspired by professional certifications (CFA-like Levels 1-3, CMT-like Level 2, and CFTe-like Level 1), applied trading task collections, and a Russian-language olympiad benchmark. This design enables evaluation of domain breadth, performance degradation as difficulty increases, the ability to solve computational tasks, and model behavior in specialized financial domains. We also describe a unified evaluation protocol covering multiple-choice questions, numerical answers, and short open-ended responses, together with an automated scoring scheme for freeform answers based on the LLM-as-judge paradigm. FINESSE-Bench is intended both as a complement to existing open financial benchmarks and as a tool for more substantive evaluation of professionally relevant financial competencies in large language models.