大規模言語モデル向けのユーザ中心の金融専門知識ベンチマークUCFEUCFE: A User-Centric Financial Expertise Benchmark for Large Language
Models
本論文では、UCFE:ユーザーセントリックファイナンシャルエキスパートベンチマークを紹介します。これは、大規模言語モデル(LLMs)が複雑な実世界の金融タスクを処理する能力を評価するために設計された革新的なフレームワークです。UCFEベンチマークは、人間の専門家の評価と動的でタスク固有の相互作用を組み合わせたハイブリッドアプローチを採用し、進化する金融シナリオの複雑さをシミュレートしています。まず、804人の参加者を対象としたユーザースタディを実施し、彼らの金融タスクに関するフィードバックを収集しました。次に、このフィードバックに基づいて、幅広いユーザー意図と相互作用を網羅するデータセットを作成しました。このデータセットは、LLMを判定者として使用するLLM-as-Judge方法論を用いて12つのLLMサービスをベンチマークするための基盤として機能します。我々の結果は、ベンチマークスコアと人間の選好との間に顕著な整合性があり、ピアソン相関係数が0.78であることから、UCFEデータセットと評価アプローチの効果を確認しています。UCFEベンチマークは、金融部門におけるLLMsの潜在能力を明らかにするだけでなく、彼らのパフォーマンスとユーザー満足度を評価するための堅牢なフレームワークを提供します。ベンチマークデータセットと評価コードは利用可能です。