De FinBen: Een Holistische Financiële Benchmark voor Grote Taalmodellen
The FinBen: An Holistic Financial Benchmark for Large Language Models
February 20, 2024
Auteurs: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
cs.AI
Samenvatting
LLM's hebben NLP getransformeerd en laten veelbelovende resultaten zien in diverse vakgebieden, maar hun potentieel in de financiële sector is onderbelicht vanwege een gebrek aan grondige evaluaties en de complexiteit van financiële taken. Dit, in combinatie met de snelle ontwikkeling van LLM's, benadrukt de dringende behoefte aan een systematisch financieel evaluatiebenchmark voor LLM's. In dit artikel introduceren we FinBen, de eerste uitgebreide open-source evaluatiebenchmark, specifiek ontworpen om de capaciteiten van LLM's in het financiële domein grondig te beoordelen. FinBen omvat 35 datasets over 23 financiële taken, georganiseerd in drie moeilijkheidsgraden geïnspireerd door de Cattell-Horn-Carroll-theorie, om de cognitieve vaardigheden van LLM's te evalueren op het gebied van inductief redeneren, associatief geheugen, kwantitatief redeneren, gekristalliseerde intelligentie en meer. Onze evaluatie van 15 representatieve LLM's, waaronder GPT-4, ChatGPT en de nieuwste Gemini, onthult inzichten in hun sterke en zwakke punten binnen het financiële domein. De bevindingen tonen aan dat GPT-4 leidt in kwantificering, extractie, numeriek redeneren en aandelenhandel, terwijl Gemini uitblinkt in generatie en voorspelling; beide hebben echter moeite met complexe extractie en voorspelling, wat een duidelijke behoefte aan gerichte verbeteringen aantoont. Instructieafstemming verbetert de prestaties bij eenvoudige taken, maar schiet tekort in het verbeteren van complexe redeneer- en voorspellingsvaardigheden. FinBen streeft ernaar om LLM's in de financiële sector continu te evalueren, waarbij de ontwikkeling van AI wordt bevorderd met regelmatige updates van taken en modellen.
English
LLMs have transformed NLP and shown promise in various fields, yet their
potential in finance is underexplored due to a lack of thorough evaluations and
the complexity of financial tasks. This along with the rapid development of
LLMs, highlights the urgent need for a systematic financial evaluation
benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive
open-sourced evaluation benchmark, specifically designed to thoroughly assess
the capabilities of LLMs in the financial domain. FinBen encompasses 35
datasets across 23 financial tasks, organized into three spectrums of
difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs'
cognitive abilities in inductive reasoning, associative memory, quantitative
reasoning, crystallized intelligence, and more. Our evaluation of 15
representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals
insights into their strengths and limitations within the financial domain. The
findings indicate that GPT-4 leads in quantification, extraction, numerical
reasoning, and stock trading, while Gemini shines in generation and
forecasting; however, both struggle with complex extraction and forecasting,
showing a clear need for targeted enhancements. Instruction tuning boosts
simple task performance but falls short in improving complex reasoning and
forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance,
fostering AI development with regular updates of tasks and models.