ChatPaper.aiChatPaper

Fino1: Over de Overdraagbaarheid van Redenering Versterkte LLMs naar Financiën

Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

February 12, 2025
Auteurs: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLM's) hebben sterke algemene redeneervaardigheden aangetoond, maar hun effectiviteit in financiële redenering blijft onderbelicht. In deze studie evalueren we uitgebreid 16 krachtige redeneer- en algemene LLM's op drie complexe financiële taken die financiële tekst, tabulaire gegevens en vergelijkingen omvatten, waarbij numerieke redenering, tabulaire interpretatie, begrip van financiële terminologie, verwerking van lange context en oplossen van vergelijkingen worden beoordeeld. Onze resultaten tonen aan dat hoewel betere datasets en voorafgaande training de financiële redenering verbeteren, algemene verbeteringen zoals CoT-fijnafstemming niet altijd consistente winsten opleveren. Bovendien worden alle redeneerstrategieën geconfronteerd met uitdagingen bij het verbeteren van de prestaties op taken met lange context en meerdere tabellen. Om deze beperkingen aan te pakken, ontwikkelen we een financieel redenering-versterkt model op basis van Llama-3.1-8B-Instruct, door CoT-fijnafstemming en versterkend leren met domeinspecifieke redeneerpaden. Zelfs met eenvoudige fijnafstemming met één financiële dataset behaalt ons model een consistente prestatieverbetering van 10% over taken, waarbij alle 8B-modellen en zelfs Llama3-70B-Instruct en Llama3.1-70B-Instruct gemiddeld worden overtroffen. Onze resultaten benadrukken de noodzaak van domeinspecifieke aanpassingen in financiële taken, waarbij toekomstige richtingen zoals redeneren met meerdere tabellen, verwerking van lange context en begrip van financiële terminologie worden benadrukt. Al onze datasets, modellen en codes zijn openbaar beschikbaar. Bovendien introduceren we een leaderboard voor het benchmarken van toekomstige datasets en modellen.
English
Recent advancements in large language models (LLMs) have shown strong general reasoning abilities, yet their effectiveness in financial reasoning remains underexplored. In this study, we comprehensively evaluate 16 powerful reasoning and general LLMs on three complex financial tasks involving financial text, tabular data, and equations, assessing numerical reasoning, tabular interpretation, financial terminology comprehension, long-context processing, and equation-based problem solving. Our results show that while better datasets and pretraining improve financial reasoning, general enhancements like CoT fine-tuning do not always yield consistent gains. Moreover, all reasoning strategies face challenges in improving performance on long-context and multi-table tasks. To address these limitations, we develop a financial reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and reinforcement learning with domain-specific reasoning paths. Even with simple fine-tuning with one financial dataset, our model achieves a consistent 10% performance improvement across tasks, surpassing all 8B models and even Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight the need for domain-specific adaptations in financial tasks, emphasizing future directions such as multi-table reasoning, long-context processing, and financial terminology comprehension. All our datasets, models, and codes are publicly available. Furthermore, we introduce a leaderboard for benchmarking future datasets and models.

Summary

AI-Generated Summary

PDF565February 13, 2025