FinBen : Un benchmark financier holistique pour les grands modèles de langage
The FinBen: An Holistic Financial Benchmark for Large Language Models
February 20, 2024
papers.authors: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
cs.AI
papers.abstract
Les LLM (modèles de langage de grande taille) ont transformé le traitement du langage naturel (NLP) et montré un potentiel prometteur dans divers domaines. Cependant, leur application en finance reste sous-explorée en raison d'un manque d'évaluations approfondies et de la complexité des tâches financières. Ce constat, combiné au développement rapide des LLM, souligne le besoin urgent d'un benchmark d'évaluation systématique pour ces modèles dans le domaine financier. Dans cet article, nous présentons FinBen, le premier benchmark d'évaluation complet et open source, spécialement conçu pour évaluer de manière approfondie les capacités des LLM dans le domaine financier. FinBen englobe 35 jeux de données couvrant 23 tâches financières, organisées en trois niveaux de difficulté inspirés de la théorie de Cattell-Horn-Carroll, afin d'évaluer les capacités cognitives des LLM en raisonnement inductif, mémoire associative, raisonnement quantitatif, intelligence cristallisée, et plus encore. Notre évaluation de 15 LLM représentatifs, incluant GPT-4, ChatGPT et le dernier Gemini, révèle des insights sur leurs forces et limites dans le domaine financier. Les résultats montrent que GPT-4 excelle en quantification, extraction, raisonnement numérique et trading d'actions, tandis que Gemini brille en génération et prévision ; cependant, les deux modèles rencontrent des difficultés avec l'extraction complexe et la prévision, indiquant un besoin clair d'améliorations ciblées. Le réglage par instruction améliore les performances sur les tâches simples, mais ne parvient pas à renforcer les capacités de raisonnement complexe et de prévision. FinBen vise à évaluer continuellement les LLM en finance, en favorisant le développement de l'IA grâce à des mises à jour régulières des tâches et des modèles.
English
LLMs have transformed NLP and shown promise in various fields, yet their
potential in finance is underexplored due to a lack of thorough evaluations and
the complexity of financial tasks. This along with the rapid development of
LLMs, highlights the urgent need for a systematic financial evaluation
benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive
open-sourced evaluation benchmark, specifically designed to thoroughly assess
the capabilities of LLMs in the financial domain. FinBen encompasses 35
datasets across 23 financial tasks, organized into three spectrums of
difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs'
cognitive abilities in inductive reasoning, associative memory, quantitative
reasoning, crystallized intelligence, and more. Our evaluation of 15
representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals
insights into their strengths and limitations within the financial domain. The
findings indicate that GPT-4 leads in quantification, extraction, numerical
reasoning, and stock trading, while Gemini shines in generation and
forecasting; however, both struggle with complex extraction and forecasting,
showing a clear need for targeted enhancements. Instruction tuning boosts
simple task performance but falls short in improving complex reasoning and
forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance,
fostering AI development with regular updates of tasks and models.