Fino1 : Sur la transférabilité des LLM améliorés par le raisonnement en finance
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance
February 12, 2025
Auteurs: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI
Résumé
Les récents progrès dans les grands modèles de langage (LLM) ont montré de fortes capacités de raisonnement général, cependant leur efficacité dans le raisonnement financier reste peu explorée. Dans cette étude, nous évaluons de manière exhaustive 16 LLMs puissants en matière de raisonnement et de généralisation sur trois tâches financières complexes impliquant du texte financier, des données tabulaires et des équations, évaluant le raisonnement numérique, l'interprétation tabulaire, la compréhension des termes financiers, le traitement de longs contextes et la résolution de problèmes basés sur des équations. Nos résultats montrent que même si de meilleurs ensembles de données et un pré-entraînement améliorent le raisonnement financier, des améliorations générales comme le fine-tuning CoT ne conduisent pas toujours à des gains cohérents. De plus, toutes les stratégies de raisonnement rencontrent des défis pour améliorer les performances sur des tâches à long contexte et multi-tableaux. Pour remédier à ces limitations, nous développons un modèle amélioré de raisonnement financier basé sur Llama-3.1-8B-Instruct, par fine-tuning CoT et apprentissage par renforcement avec des chemins de raisonnement spécifiques au domaine. Même avec un simple fine-tuning avec un ensemble de données financières, notre modèle obtient une amélioration de performance constante de 10 % sur l'ensemble des tâches, dépassant tous les modèles 8B et même Llama3-70B-Instruct et Llama3.1-70B-Instruct en moyenne. Nos résultats soulignent le besoin d'adaptations spécifiques au domaine dans les tâches financières, mettant en avant des orientations futures telles que le raisonnement multi-tableaux, le traitement de longs contextes et la compréhension des termes financiers. Tous nos ensembles de données, modèles et codes sont disponibles publiquement. De plus, nous introduisons un tableau de classement pour l'évaluation future des ensembles de données et des modèles.
English
Recent advancements in large language models (LLMs) have shown strong general
reasoning abilities, yet their effectiveness in financial reasoning remains
underexplored. In this study, we comprehensively evaluate 16 powerful reasoning
and general LLMs on three complex financial tasks involving financial text,
tabular data, and equations, assessing numerical reasoning, tabular
interpretation, financial terminology comprehension, long-context processing,
and equation-based problem solving. Our results show that while better datasets
and pretraining improve financial reasoning, general enhancements like CoT
fine-tuning do not always yield consistent gains. Moreover, all reasoning
strategies face challenges in improving performance on long-context and
multi-table tasks. To address these limitations, we develop a financial
reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and
reinforcement learning with domain-specific reasoning paths. Even with simple
fine-tuning with one financial dataset, our model achieves a consistent 10%
performance improvement across tasks, surpassing all 8B models and even
Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight
the need for domain-specific adaptations in financial tasks, emphasizing future
directions such as multi-table reasoning, long-context processing, and
financial terminology comprehension. All our datasets, models, and codes are
publicly available. Furthermore, we introduce a leaderboard for benchmarking
future datasets and models.Summary
AI-Generated Summary