ChatPaper.aiChatPaper

FinChain: 検証可能な連鎖的思考による金融推論のためのシンボリックベンチマーク

FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

June 3, 2025
著者: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI

要旨

多段階の記号的推論は、金融タスクにおける下流のパフォーマンスを向上させるために重要です。しかし、この能力を体系的に評価するためのベンチマークが不足しています。FinQAやConvFinQAなどの既存のデータセットは、最終的な数値的な答えのみを監督しており、中間の推論ステップを評価していません。この問題に対処するため、我々は検証可能なChain-of-Thought(CoT)金融推論を目的とした最初の記号的ベンチマークであるFinChainを導入します。12の金融ドメインにわたる54のトピックをカバーするFinChainは、各トピックに対して5つのパラメータ化されたテンプレートを提供し、それぞれが推論の複雑さと必要なドメイン知識を変化させます。各データセットインスタンスには実行可能なPythonトレースが含まれており、広範なトレーニングデータの自動生成と他のドメインへの容易な適応を可能にします。また、最終的な答えと中間の推論の両方を自動評価する新しい指標であるChainEvalも導入します。我々のデータセットで30のLLMをベンチマークした結果、最先端のモデルでさえ多段階の金融推論において大幅な改善の余地があることがわかりました。FinChainのすべてのテンプレートと評価指標はhttps://github.com/mbzuai-nlp/finchainで公開されています。
English
Multi-step symbolic reasoning is critical for advancing downstream performance on financial tasks. Yet, benchmarks for systematically evaluating this capability are lacking. Existing datasets like FinQA and ConvFinQA supervise only final numerical answers, without assessing intermediate reasoning steps. To address this, we introduce FinChain, the first symbolic benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning. Spanning 54 topics across 12 financial domains, Fin- Chain offers five parameterized templates per topic, each varying in reasoning complexity and domain expertise required. Each dataset instance includes an executable Python trace, enabling automatic generation of extensive training data and easy adaptation to other domains. We also introduce ChainEval, a new metric for automatic evaluation of both final answers and intermediate reasoning. Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models have considerable room for improvement in multi-step financial reasoning. All templates and evaluation metrics for FinChain are available at https: //github.com/mbzuai-nlp/finchain.
PDF22June 5, 2025