FinChain : Un benchmark symbolique pour le raisonnement financier vérifiable en chaîne de pensée
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
June 3, 2025
Auteurs: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI
Résumé
Le raisonnement symbolique multi-étapes est essentiel pour améliorer les performances sur les tâches financières. Pourtant, les benchmarks permettant d'évaluer systématiquement cette capacité font défaut. Les ensembles de données existants comme FinQA et ConvFinQA ne supervisent que les réponses numériques finales, sans évaluer les étapes de raisonnement intermédiaires. Pour remédier à cela, nous introduisons FinChain, le premier benchmark symbolique conçu pour un raisonnement financier vérifiable en Chaîne de Pensée (CoT). Couvrant 54 sujets répartis dans 12 domaines financiers, FinChain propose cinq modèles paramétrables par sujet, chacun variant en complexité de raisonnement et en expertise domaine requise. Chaque instance de l'ensemble de données inclut une trace Python exécutable, permettant la génération automatique de données d'entraînement étendues et une adaptation facile à d'autres domaines. Nous introduisons également ChainEval, une nouvelle métrique pour l'évaluation automatique des réponses finales et du raisonnement intermédiaire. En évaluant 30 modèles de langage sur notre ensemble de données, nous constatons que même les modèles les plus avancés ont une marge d'amélioration considérable dans le raisonnement financier multi-étapes. Tous les modèles et métriques d'évaluation pour FinChain sont disponibles à l'adresse suivante : https://github.com/mbzuai-nlp/finchain.
English
Multi-step symbolic reasoning is critical for advancing downstream
performance on financial tasks. Yet, benchmarks for systematically evaluating
this capability are lacking. Existing datasets like FinQA and ConvFinQA
supervise only final numerical answers, without assessing intermediate
reasoning steps. To address this, we introduce FinChain, the first symbolic
benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning.
Spanning 54 topics across 12 financial domains, Fin- Chain offers five
parameterized templates per topic, each varying in reasoning complexity and
domain expertise required. Each dataset instance includes an executable Python
trace, enabling automatic generation of extensive training data and easy
adaptation to other domains. We also introduce ChainEval, a new metric for
automatic evaluation of both final answers and intermediate reasoning.
Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models
have considerable room for improvement in multi-step financial reasoning. All
templates and evaluation metrics for FinChain are available at https:
//github.com/mbzuai-nlp/finchain.