FinChain: Ein symbolischer Benchmark für verifizierbares Chain-of-Thought-Finanzdenken
FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning
June 3, 2025
Autoren: Zhuohan Xie, Dhruv Sahnan, Debopriyo Banerjee, Georgi Georgiev, Rushil Thareja, Hachem Madmoun, Jinyan Su, Aaryamonvikram Singh, Yuxia Wang, Rui Xing, Fajri Koto, Haonan Li, Ivan Koychev, Tanmoy Chakraborty, Salem Lahlou, Veselin Stoyanov, Preslav Nakov
cs.AI
Zusammenfassung
Mehrstufiges symbolisches Denken ist entscheidend für die Verbesserung der Leistung bei finanziellen Aufgaben. Dennoch fehlen Benchmarks, um diese Fähigkeit systematisch zu bewerten. Bestehende Datensätze wie FinQA und ConvFinQA überwachen nur die endgültigen numerischen Antworten, ohne die Zwischenschritte der Argumentation zu bewerten. Um dies zu beheben, stellen wir FinChain vor, den ersten symbolischen Benchmark, der für überprüfbare Chain-of-Thought (CoT)-Finanzargumentation entwickelt wurde. FinChain umfasst 54 Themen aus 12 Finanzbereichen und bietet fünf parametrisierte Vorlagen pro Thema, die sich in der Komplexität der Argumentation und dem erforderlichen Fachwissen unterscheiden. Jeder Datensatz enthält eine ausführbare Python-Spur, die die automatische Generierung umfangreicher Trainingsdaten ermöglicht und eine einfache Anpassung an andere Bereiche erleichtert. Wir führen auch ChainEval ein, eine neue Metrik zur automatischen Bewertung sowohl der endgültigen Antworten als auch der Zwischenschritte der Argumentation. Bei der Bewertung von 30 LLMs auf unserem Datensatz stellen wir fest, dass selbst die modernsten Modelle erheblichen Verbesserungsbedarf bei der mehrstufigen Finanzargumentation haben. Alle Vorlagen und Bewertungsmetriken für FinChain sind unter https://github.com/mbzuai-nlp/finchain verfügbar.
English
Multi-step symbolic reasoning is critical for advancing downstream
performance on financial tasks. Yet, benchmarks for systematically evaluating
this capability are lacking. Existing datasets like FinQA and ConvFinQA
supervise only final numerical answers, without assessing intermediate
reasoning steps. To address this, we introduce FinChain, the first symbolic
benchmark designed for verifiable Chain-of- Thought (CoT) financial reasoning.
Spanning 54 topics across 12 financial domains, Fin- Chain offers five
parameterized templates per topic, each varying in reasoning complexity and
domain expertise required. Each dataset instance includes an executable Python
trace, enabling automatic generation of extensive training data and easy
adaptation to other domains. We also introduce ChainEval, a new metric for
automatic evaluation of both final answers and intermediate reasoning.
Benchmarking 30 LLMs on our dataset, we find that even state-of-the-art models
have considerable room for improvement in multi-step financial reasoning. All
templates and evaluation metrics for FinChain are available at https:
//github.com/mbzuai-nlp/finchain.