予期せぬことに備える:ファイナンス向けの長文脈QAのためのフェイルセーフExpect the Unexpected: FailSafe Long Context QA for Finance
私たちは、金融におけるLLMベースのクエリ応答システムにおける人間インタフェースの相互作用の6つの変化に対するLLMの頑健性とコンテキスト認識をテストするために設計された新しい長いコンテキストの金融ベンチマーク、FailSafeQAを提案します。私たちは、Query FailureとContext Failureの2つのケーススタディに焦点を当てています。Query Failureシナリオでは、元のクエリをドメインの専門知識、完全性、および言語の正確性に変化させるために摂動を加えます。Context Failureの場合、劣化した、無関係な、空のドキュメントのアップロードをシミュレートします。私たちは、Qwen2.5-72B-Instructを用いたLLM-as-a-Judge方法論を採用し、24の市販モデルに対してRobustness、Context Grounding、Complianceのスコアを定義および計算するための細かい評価基準を使用します。結果は、一部のモデルが入力の摂動を緩和することに優れているものの、頑健な回答と空想を控える能力とのバランスを取らなければならないことを示唆しています。特に、最も適合性のあるモデルとして認識されたPalmyra-Fin-128k-Instructは、強力なベースライン性能を維持していましたが、テストケースの17%で頑健な予測を維持することに課題を抱えていました。一方、最も頑健なモデルであるOpenAI o3-miniは、テストされたケースの41%で情報を捏造していました。結果は、高性能なモデルでも大幅な改善の余地があり、FailSafeQAの金融アプリケーションにおける信頼性向上に最適化されたLLMの開発ツールとしての役割を強調しています。データセットは以下で入手可能です:https://huggingface.co/datasets/Writer/FailSafeQA