FinChain: Un Benchmark Simbolico per il Ragionamento Finanziario a Catena di Pensiero Verificabile
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
June 3, 2025
Autori: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI
Abstract
Il ragionamento simbolico multi-step è fondamentale per migliorare le prestazioni nei compiti finanziari. Tuttavia, mancano benchmark per valutare sistematicamente questa capacità. Dataset esistenti come FinQA e ConvFinQA supervisionano solo le risposte numeriche finali, senza valutare i passaggi di ragionamento intermedi. Per affrontare questo problema, introduciamo FinChain, il primo benchmark simbolico progettato per un ragionamento finanziario verificabile a catena di pensiero (Chain-of-Thought, CoT). Abbracciando 54 argomenti in 12 domini finanziari, FinChain offre cinque modelli parametrizzati per argomento, ciascuno con una complessità di ragionamento e un livello di competenza di dominio variabili. Ogni istanza del dataset include una traccia Python eseguibile, consentendo la generazione automatica di ampi dati di addestramento e un facile adattamento ad altri domini. Introduciamo inoltre ChainEval, una nuova metrica per la valutazione automatica sia delle risposte finali che del ragionamento intermedio. Testando 30 LLM sul nostro dataset, scopriamo che anche i modelli più avanzati hanno un margine di miglioramento significativo nel ragionamento finanziario multi-step. Tutti i modelli e le metriche di valutazione per FinChain sono disponibili su https://github.com/mbzuai-nlp/finchain.
English
Multi-step symbolic reasoning is critical for advancing downstream
performance on financial tasks. Yet, benchmarks for systematically evaluating
this capability are lacking. Existing datasets like FinQA and ConvFinQA
supervise only final numerical answers, without assessing intermediate
reasoning steps. To address this, we introduce FinChain, the first symbolic
benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning.
Spanning 54 topics across 12 financial domains, Fin- Chain offers five
parameterized templates per topic, each varying in reasoning complexity and
domain expertise required. Each dataset instance includes an executable Python
trace, enabling automatic generation of extensive training data and easy
adaptation to other domains. We also introduce ChainEval, a new metric for
automatic evaluation of both final answers and intermediate reasoning.
Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models
have considerable room for improvement in multi-step financial reasoning. All
templates and evaluation metrics for FinChain are available at https:
//github.com/mbzuai-nlp/finchain.