ChatPaper.aiChatPaper

FinForge: 半合成金融ベンチマーク生成

FinForge: Semi-Synthetic Financial Benchmark Generation

January 11, 2026
著者: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava
cs.AI

要旨

専門性が高く影響力の大きな金融分野のようなドメインにおける言語モデル(LM)の評価は、公開された高品質なドメイン固有データセットの不足により、依然として大きな課題である。既存の汎用ベンチマークは広範な範囲をカバーするが、概念的把握と定量的厳密性の両方を必要とする実世界の金融推論におけるLMの能力を評価するには、深みとドメインへの忠実度が欠如している。このギャップを埋めるため、我々は専門家主導のデータキュレーションと制御されたLMベースの合成を組み合わせたハイブリッド手法により、金融固有の評価ベンチマークを構築するためのスケーラブルな半合成パイプライン「FinForge」を提案する。FinForgeは、信頼できる金融情報源からの手動及びプログラムによるコーパス構築と、Gemini 2.5 Flashを用いた構造化された質問生成及び検証を組み合わせている。本パイプラインの有効性を示すため、143Mトークン、10万件の検証済み文書からなる厳選コーパスに基づき、11の金融サブドメインにわたる5,000件以上的人力検証済み質問-回答ペアで構成されるスナップショットベンチマーク「FinForge-5k」を構築した。FinForge-5kによる最先端のオープンソース及びクローズドソースモデルの評価では、金融推論能力に顕著な差が認められ、主要モデルは80%に近い正解率を達成した。これらの知見は、現在のモデルの限界を診断し、金融ドメイン能力の今後の改善を導く本フレームワークの有用性を裏付けている。全てのコードとデータはhttps://github.com/gtfintechlab/FinForge で公開されている。
English
Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.
PDF13January 31, 2026