FinChain: Um Benchmark Simbólico para Raciocínio Financeiro Verificável em Cadeia de Pensamento
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
June 3, 2025
Autores: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI
Resumo
O raciocínio simbólico em múltiplos passos é crucial para avançar o desempenho em tarefas financeiras. No entanto, faltam benchmarks para avaliar sistematicamente essa capacidade. Conjuntos de dados existentes, como FinQA e ConvFinQA, supervisionam apenas as respostas numéricas finais, sem avaliar os passos intermediários de raciocínio. Para resolver isso, introduzimos o FinChain, o primeiro benchmark simbólico projetado para raciocínio financeiro verificável em Cadeia de Pensamento (Chain-of-Thought, CoT). Abrangendo 54 tópicos em 12 domínios financeiros, o FinChain oferece cinco modelos parametrizados por tópico, cada um variando em complexidade de raciocínio e expertise de domínio necessária. Cada instância do conjunto de dados inclui um rastreamento executável em Python, permitindo a geração automática de dados de treinamento extensivos e fácil adaptação a outros domínios. Também introduzimos o ChainEval, uma nova métrica para avaliação automática tanto das respostas finais quanto do raciocínio intermediário. Ao avaliar 30 LLMs em nosso conjunto de dados, descobrimos que mesmo os modelos mais avançados têm espaço considerável para melhoria no raciocínio financeiro em múltiplos passos. Todos os modelos e métricas de avaliação para o FinChain estão disponíveis em https://github.com/mbzuai-nlp/finchain.
English
Multi-step symbolic reasoning is critical for advancing downstream
performance on financial tasks. Yet, benchmarks for systematically evaluating
this capability are lacking. Existing datasets like FinQA and ConvFinQA
supervise only final numerical answers, without assessing intermediate
reasoning steps. To address this, we introduce FinChain, the first symbolic
benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning.
Spanning 54 topics across 12 financial domains, Fin- Chain offers five
parameterized templates per topic, each varying in reasoning complexity and
domain expertise required. Each dataset instance includes an executable Python
trace, enabling automatic generation of extensive training data and easy
adaptation to other domains. We also introduce ChainEval, a new metric for
automatic evaluation of both final answers and intermediate reasoning.
Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models
have considerable room for improvement in multi-step financial reasoning. All
templates and evaluation metrics for FinChain are available at https:
//github.com/mbzuai-nlp/finchain.