ChatPaper.aiChatPaper

FinChain: Een Symbolische Benchmark voor Verifieerbare Ketengedachte Financiële Redenering

FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning

June 3, 2025
Auteurs: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI

Samenvatting

Multi-staps symbolisch redeneren is cruciaal voor het verbeteren van de prestaties op financiële taken. Toch ontbreken er benchmarks om deze capaciteit systematisch te evalueren. Bestaande datasets zoals FinQA en ConvFinQA begeleiden alleen de uiteindelijke numerieke antwoorden, zonder de tussenliggende redeneerstappen te beoordelen. Om dit aan te pakken, introduceren we FinChain, de eerste symbolische benchmark die is ontworpen voor verifieerbaar Chain-of-Thought (CoT) financieel redeneren. FinChain beslaat 54 onderwerpen over 12 financiële domeinen en biedt vijf geparametriseerde sjablonen per onderwerp, elk met variërende redeneercomplexiteit en benodigde domeinkennis. Elke datasetinstantie bevat een uitvoerbaar Python-trace, waardoor automatische generatie van uitgebreide trainingsdata mogelijk is en eenvoudige aanpassing aan andere domeinen. We introduceren ook ChainEval, een nieuwe metriek voor de automatische evaluatie van zowel de uiteindelijke antwoorden als de tussenliggende redenering. Door 30 LLM's op onze dataset te benchmarken, ontdekken we dat zelfs state-of-the-art modellen aanzienlijke ruimte voor verbetering hebben in multi-staps financieel redeneren. Alle sjablonen en evaluatiemetrices voor FinChain zijn beschikbaar op https://github.com/mbzuai-nlp/finchain.
English
Multi-step symbolic reasoning is critical for advancing downstream performance on financial tasks. Yet, benchmarks for systematically evaluating this capability are lacking. Existing datasets like FinQA and ConvFinQA supervise only final numerical answers, without assessing intermediate reasoning steps. To address this, we introduce FinChain, the first symbolic benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning. Spanning 54 topics across 12 financial domains, Fin- Chain offers five parameterized templates per topic, each varying in reasoning complexity and domain expertise required. Each dataset instance includes an executable Python trace, enabling automatic generation of extensive training data and easy adaptation to other domains. We also introduce ChainEval, a new metric for automatic evaluation of both final answers and intermediate reasoning. Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models have considerable room for improvement in multi-step financial reasoning. All templates and evaluation metrics for FinChain are available at https: //github.com/mbzuai-nlp/finchain.
PDF22June 5, 2025