FinChain: Un punto de referencia simbólico para el razonamiento financiero verificable en cadena de pensamiento
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
June 3, 2025
Autores: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI
Resumen
El razonamiento simbólico de múltiples pasos es crucial para mejorar el rendimiento en tareas financieras. Sin embargo, faltan puntos de referencia para evaluar sistemáticamente esta capacidad. Conjuntos de datos existentes como FinQA y ConvFinQA supervisan únicamente las respuestas numéricas finales, sin evaluar los pasos intermedios de razonamiento. Para abordar esto, presentamos FinChain, el primer punto de referencia simbólico diseñado para un razonamiento financiero verificable basado en Cadena de Pensamiento (CoT). Abarcando 54 temas en 12 dominios financieros, FinChain ofrece cinco plantillas parametrizadas por tema, cada una con variaciones en la complejidad del razonamiento y el nivel de experiencia en el dominio requerido. Cada instancia del conjunto de datos incluye un rastreo ejecutable en Python, lo que permite la generación automática de datos de entrenamiento extensos y una fácil adaptación a otros dominios. También presentamos ChainEval, una nueva métrica para la evaluación automática tanto de las respuestas finales como del razonamiento intermedio. Al evaluar 30 modelos de lenguaje grandes (LLMs) en nuestro conjunto de datos, encontramos que incluso los modelos más avanzados tienen un margen considerable de mejora en el razonamiento financiero de múltiples pasos. Todas las plantillas y métricas de evaluación para FinChain están disponibles en https://github.com/mbzuai-nlp/finchain.
English
Multi-step symbolic reasoning is critical for advancing downstream
performance on financial tasks. Yet, benchmarks for systematically evaluating
this capability are lacking. Existing datasets like FinQA and ConvFinQA
supervise only final numerical answers, without assessing intermediate
reasoning steps. To address this, we introduce FinChain, the first symbolic
benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning.
Spanning 54 topics across 12 financial domains, Fin- Chain offers five
parameterized templates per topic, each varying in reasoning complexity and
domain expertise required. Each dataset instance includes an executable Python
trace, enabling automatic generation of extensive training data and easy
adaptation to other domains. We also introduce ChainEval, a new metric for
automatic evaluation of both final answers and intermediate reasoning.
Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models
have considerable room for improvement in multi-step financial reasoning. All
templates and evaluation metrics for FinChain are available at https:
//github.com/mbzuai-nlp/finchain.