FinForge: Halbsynthetische Generierung von Finanz-Benchmarks
FinForge: Semi-Synthetic Financial Benchmark Generation
January 11, 2026
papers.authors: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava
cs.AI
papers.abstract
Die Bewertung von Sprachmodellen (LMs) in spezialisierten, hochriskanten Domänen wie der Finanzwelt bleibt eine große Herausforderung, was vor allem auf den Mangel an offenen, hochwertigen und domänenspezifischen Datensätzen zurückzuführen ist. Bestehende allgemeine Benchmarks bieten zwar eine breite Abdeckung, mangelt es ihnen jedoch an der Tiefe und Domänentreue, die erforderlich sind, um die Fähigkeiten von LMs für realistische Finanzanalysen zu bewerten, die sowohl konzeptionelles Verständnis als auch quantitative Strenge erfordern. Um diese Lücke zu schließen, stellen wir FinForge vor: eine skalierbare, halbsynthetische Pipeline zur Erstellung finanzspezifischer Evaluierungs-Benchmarks durch eine Kombination aus expertengeleiteter Datenkuratierung und kontrollierter, LM-basierter Synthese. FinForge verbindet manuelle und programmatische Korpus-Erstellung aus autoritativen Finanzquellen mit strukturierter Fragengenerierung und Validierung unter Verwendung von Gemini 2.5 Flash. Um die Wirksamkeit der Pipeline zu demonstrieren, erstellen wir FinForge-5k, einen Benchmark-Snapshot mit über 5.000 menschlich validierten Frage-Antwort-Paaren aus 11 Finanzteilgebieten, der aus einem kuratierten Korpus von 100.000 verifizierten Dokumenten mit insgesamt 143 Millionen Tokens abgeleitet ist. Die Evaluierung modernster Open-Source- und Closed-Source-Modelle anhand von FinForge-5k zeigt erhebliche Unterschiede in der finanziellen Reasoning-Fähigkeit auf, wobei führende Modelle Genauigkeitswerte von nahezu 80 % erreichen. Diese Ergebnisse unterstreichen den Nutzen des Frameworks für die Diagnose aktueller Modellgrenzen und die Steuerung zukünftiger Verbesserungen der finanziellen Domänenkompetenz. Der gesamte Code und die Daten sind unter https://github.com/gtfintechlab/FinForge verfügbar.
English
Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.