FinForge : Génération de Benchmark Financier Semi-Synthétique
FinForge: Semi-Synthetic Financial Benchmark Generation
January 11, 2026
papers.authors: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava
cs.AI
papers.abstract
L'évaluation des modèles de langage (LM) dans des domaines spécialisés à enjeux élevés comme la finance reste un défi majeur en raison de la rareté des jeux de données ouverts, de haute qualité et spécifiques au domaine. Les benchmarks généralistes existants offrent une couverture étendue mais manquent de la profondeur et de la fidélité au domaine nécessaires pour évaluer les capacités des LM en matière de raisonnement financier réel, qui exige à la fois une compréhension conceptuelle et une rigueur quantitative. Pour combler cette lacune, nous présentons FinForge, un pipeline semi-synthétique et évolutif pour construire des benchmarks d'évaluation spécifiques à la finance grâce à un hybride de curation de données guidée par des experts et de synthèse contrôlée basée sur des LM. FinForge combine une construction de corpus manuelle et programmatique à partir de sources financières autorisées avec une génération de questions structurée et une validation utilisant Gemini 2.5 Flash. Pour démontrer l'efficacité du pipeline, nous produisons FinForge-5k, un benchmark instantané comprenant plus de 5 000 paires question-réponse validées par des humains couvrant 11 sous-domaines financiers, dérivé d'un corpus trié de 100 000 documents vérifiés totalisant 143 millions de tokens. L'évaluation des modèles open-source et propriétaires les plus avancés sur FinForge-5k révèle des différences significatives dans le raisonnement financier, les modèles leaders atteignant des niveaux de précision proches de 80 %. Ces résultats soulignent l'utilité du cadre pour diagnostiquer les limitations actuelles des modèles et guider les futures améliorations de la compétence dans le domaine financier. Tous les codes et données sont disponibles à l'adresse https://github.com/gtfintechlab/FinForge.
English
Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.