大規模言語モデル向けのユーザ中心の金融専門知識ベンチマークUCFE
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
著者: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
要旨
本論文では、UCFE:ユーザーセントリックファイナンシャルエキスパートベンチマークを紹介します。これは、大規模言語モデル(LLMs)が複雑な実世界の金融タスクを処理する能力を評価するために設計された革新的なフレームワークです。UCFEベンチマークは、人間の専門家の評価と動的でタスク固有の相互作用を組み合わせたハイブリッドアプローチを採用し、進化する金融シナリオの複雑さをシミュレートしています。まず、804人の参加者を対象としたユーザースタディを実施し、彼らの金融タスクに関するフィードバックを収集しました。次に、このフィードバックに基づいて、幅広いユーザー意図と相互作用を網羅するデータセットを作成しました。このデータセットは、LLMを判定者として使用するLLM-as-Judge方法論を用いて12つのLLMサービスをベンチマークするための基盤として機能します。我々の結果は、ベンチマークスコアと人間の選好との間に顕著な整合性があり、ピアソン相関係数が0.78であることから、UCFEデータセットと評価アプローチの効果を確認しています。UCFEベンチマークは、金融部門におけるLLMsの潜在能力を明らかにするだけでなく、彼らのパフォーマンスとユーザー満足度を評価するための堅牢なフレームワークを提供します。ベンチマークデータセットと評価コードは利用可能です。
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.Summary
AI-Generated Summary