FinChain: Символический эталон для проверяемого цепочечного финансового рассуждения
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
June 3, 2025
Авторы: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI
Аннотация
Многошаговое символическое рассуждение имеет ключевое значение для повышения производительности в финансовых задачах. Однако отсутствуют эталонные тесты для систематической оценки этой способности. Существующие наборы данных, такие как FinQA и ConvFinQA, контролируют только итоговые числовые ответы, не оценивая промежуточные шаги рассуждений. Чтобы устранить этот пробел, мы представляем FinChain — первый символический эталонный тест, разработанный для проверяемой цепочки рассуждений (Chain-of-Thought, CoT) в финансовой области. Охватывая 54 темы в 12 финансовых областях, FinChain предлагает пять параметризованных шаблонов для каждой темы, каждый из которых варьируется по сложности рассуждений и требуемому уровню экспертных знаний. Каждый экземпляр набора данных включает исполняемый Python-сценарий, что позволяет автоматически генерировать обширные обучающие данные и легко адаптировать их к другим областям. Мы также представляем ChainEval — новый метрический инструмент для автоматической оценки как итоговых ответов, так и промежуточных рассуждений. Проведя тестирование 30 крупных языковых моделей (LLM) на нашем наборе данных, мы обнаружили, что даже самые передовые модели имеют значительный потенциал для улучшения в области многошагового финансового рассуждения. Все шаблоны и метрики оценки для FinChain доступны по адресу: https://github.com/mbzuai-nlp/finchain.
English
Multi-step symbolic reasoning is critical for advancing downstream
performance on financial tasks. Yet, benchmarks for systematically evaluating
this capability are lacking. Existing datasets like FinQA and ConvFinQA
supervise only final numerical answers, without assessing intermediate
reasoning steps. To address this, we introduce FinChain, the first symbolic
benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning.
Spanning 54 topics across 12 financial domains, Fin- Chain offers five
parameterized templates per topic, each varying in reasoning complexity and
domain expertise required. Each dataset instance includes an executable Python
trace, enabling automatic generation of extensive training data and easy
adaptation to other domains. We also introduce ChainEval, a new metric for
automatic evaluation of both final answers and intermediate reasoning.
Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models
have considerable room for improvement in multi-step financial reasoning. All
templates and evaluation metrics for FinChain are available at https:
//github.com/mbzuai-nlp/finchain.