ChatPaper.aiChatPaper

Der FinBen: Ein ganzheitlicher Finanz-Benchmark für große Sprachmodelle

The FinBen: An Holistic Financial Benchmark for Large Language Models

February 20, 2024
papers.authors: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
cs.AI

papers.abstract

LLMs haben das NLP revolutioniert und in verschiedenen Bereichen vielversprechende Ergebnisse gezeigt, doch ihr Potenzial in der Finanzwelt bleibt aufgrund mangelnder gründlicher Evaluierungen und der Komplexität finanzieller Aufgaben weitgehend unerforscht. Dies, zusammen mit der rasanten Entwicklung von LLMs, unterstreicht die dringende Notwendigkeit eines systematischen finanziellen Evaluierungsbenchmarks für LLMs. In diesem Artikel stellen wir FinBen vor, den ersten umfassenden, quelloffenen Evaluierungsbenchmark, der speziell entwickelt wurde, um die Fähigkeiten von LLMs im Finanzbereich gründlich zu bewerten. FinBen umfasst 35 Datensätze über 23 Finanzaufgaben hinweg, die in drei Schwierigkeitsspektren organisiert sind, inspiriert von der Cattell-Horn-Carroll-Theorie, um die kognitiven Fähigkeiten von LLMs in induktivem Denken, assoziativem Gedächtnis, quantitativem Denken, kristalliner Intelligenz und mehr zu bewerten. Unsere Evaluierung von 15 repräsentativen LLMs, darunter GPT-4, ChatGPT und das neueste Gemini, gibt Einblicke in ihre Stärken und Schwächen im Finanzbereich. Die Ergebnisse zeigen, dass GPT-4 in Quantifizierung, Extraktion, numerischem Denken und Aktienhandel führend ist, während Gemini in Generierung und Prognose glänzt; jedoch kämpfen beide mit komplexer Extraktion und Prognose, was einen klaren Bedarf für gezielte Verbesserungen aufzeigt. Instruction Tuning steigert die Leistung bei einfachen Aufgaben, reicht jedoch nicht aus, um komplexes Denken und Prognosefähigkeiten zu verbessern. FinBen strebt an, LLMs kontinuierlich im Finanzbereich zu evaluieren und die KI-Entwicklung durch regelmäßige Aktualisierungen von Aufgaben und Modellen zu fördern.
English
LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.
PDF225December 15, 2024