ChatPaper.aiChatPaper

FinForge: Generatie van semi-synthetische financiële benchmarks

FinForge: Semi-Synthetic Financial Benchmark Generation

January 11, 2026
Auteurs: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava
cs.AI

Samenvatting

Het evalueren van taalmodellen (LM's) in gespecialiseerde, hoogrisicodomeinen zoals financiën blijft een grote uitdaging vanwege het gebrek aan open, hoogwaardige en domeinspecifieke datasets. Bestaande algemene benchmarks bieden brede dekking, maar missen de diepgang en domeintrouw die nodig zijn om de capaciteiten van LM's voor real-world financieel redeneren te beoordelen, wat zowel conceptueel begrip als kwantitatieve nauwkeurigheid vereist. Om deze kloof te dichten, introduceren we FinForge, een schaalbare, semi-synthetische pijplijn voor het construeren van financiële evaluatiebenchmarks door een hybride aanpak van expert-gestuurde datacuratie en gecontroleerde, op LM gebaseerde synthese. FinForge combineert manuele en programmatische corpusconstructie vanuit gezaghebbende financiële bronnen met gestructureerde vraaggeneratie en validatie met behulp van Gemini 2.5 Flash. Om de effectiviteit van de pijplijn aan te tonen, produceren we FinForge-5k, een momentopname-benchmark bestaande uit meer dan 5.000 door mensen gevalideerde vraag-antwoordparen verdeeld over 11 financiële subdomeinen, afgeleid van een gecureerd corpus van 100.000 geverifieerde documenten met een totale omvang van 143 miljoen tokens. Evaluatie van state-of-the-art open-source en closed-source modellen op FinForge-5k onthult significante verschillen in financieel redeneervermogen, waarbij toonaangevende modellen nauwkeurigheidsniveaus van bijna 80% bereiken. Deze bevindingen onderstrepen de bruikbaarheid van het framework voor het diagnosticeren van huidige modelbeperkingen en het sturen van toekomstige verbeteringen in financiële domeincompetentie. Alle code en data zijn beschikbaar op https://github.com/gtfintechlab/FinForge.
English
Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.
PDF13January 31, 2026