ChatPaper.aiChatPaper

FinBen: 大規模言語モデルのための包括的金融ベンチマーク

The FinBen: An Holistic Financial Benchmark for Large Language Models

February 20, 2024
著者: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
cs.AI

要旨

LLM(大規模言語モデル)はNLP(自然言語処理)を変革し、さまざまな分野で有望な成果を示していますが、金融分野での可能性は十分に探求されていません。これは、徹底的な評価の欠如や金融タスクの複雑さによるものです。LLMの急速な発展と相まって、LLMのための体系的な金融評価ベンチマークの緊急な必要性が浮き彫りになっています。本論文では、FinBenを紹介します。FinBenは、金融分野におけるLLMの能力を徹底的に評価するために特別に設計された、初の包括的なオープンソース評価ベンチマークです。FinBenは、Cattell-Horn-Carroll理論に基づいて難易度の3つのスペクトラムに分類された23の金融タスクにわたる35のデータセットを包含し、LLMの帰納的推論、連想記憶、定量的推論、結晶化知能などの認知能力を評価します。GPT-4、ChatGPT、最新のGeminiを含む15の代表的なLLMを評価した結果、金融分野におけるそれらの強みと限界が明らかになりました。その結果、GPT-4は定量化、抽出、数値推論、株式取引でリードしている一方、Geminiは生成と予測で優れていることがわかりました。しかし、両者とも複雑な抽出と予測に苦戦しており、ターゲットを絞った改善の必要性が明確に示されました。指示チューニングは単純なタスクのパフォーマンスを向上させますが、複雑な推論や予測能力の改善には至りません。FinBenは、タスクとモデルの定期的な更新を通じて、金融分野におけるLLMの継続的な評価を目指し、AIの発展を促進します。
English
LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.
PDF225December 15, 2024