ChatPaper.aiChatPaper

予期せぬことに備える:ファイナンス向けの長文脈QAのためのフェイルセーフ

Expect the Unexpected: FailSafe Long Context QA for Finance

February 10, 2025
著者: Kiran Kamble, Melisa Russak, Dmytro Mozolevskyi, Muayad Ali, Mateusz Russak, Waseem AlShikh
cs.AI

要旨

私たちは、金融におけるLLMベースのクエリ応答システムにおける人間インタフェースの相互作用の6つの変化に対するLLMの頑健性とコンテキスト認識をテストするために設計された新しい長いコンテキストの金融ベンチマーク、FailSafeQAを提案します。私たちは、Query FailureとContext Failureの2つのケーススタディに焦点を当てています。Query Failureシナリオでは、元のクエリをドメインの専門知識、完全性、および言語の正確性に変化させるために摂動を加えます。Context Failureの場合、劣化した、無関係な、空のドキュメントのアップロードをシミュレートします。私たちは、Qwen2.5-72B-Instructを用いたLLM-as-a-Judge方法論を採用し、24の市販モデルに対してRobustness、Context Grounding、Complianceのスコアを定義および計算するための細かい評価基準を使用します。結果は、一部のモデルが入力の摂動を緩和することに優れているものの、頑健な回答と空想を控える能力とのバランスを取らなければならないことを示唆しています。特に、最も適合性のあるモデルとして認識されたPalmyra-Fin-128k-Instructは、強力なベースライン性能を維持していましたが、テストケースの17%で頑健な予測を維持することに課題を抱えていました。一方、最も頑健なモデルであるOpenAI o3-miniは、テストされたケースの41%で情報を捏造していました。結果は、高性能なモデルでも大幅な改善の余地があり、FailSafeQAの金融アプリケーションにおける信頼性向上に最適化されたLLMの開発ツールとしての役割を強調しています。データセットは以下で入手可能です:https://huggingface.co/datasets/Writer/FailSafeQA
English
We propose a new long-context financial benchmark, FailSafeQA, designed to test the robustness and context-awareness of LLMs against six variations in human-interface interactions in LLM-based query-answer systems within finance. We concentrate on two case studies: Query Failure and Context Failure. In the Query Failure scenario, we perturb the original query to vary in domain expertise, completeness, and linguistic accuracy. In the Context Failure case, we simulate the uploads of degraded, irrelevant, and empty documents. We employ the LLM-as-a-Judge methodology with Qwen2.5-72B-Instruct and use fine-grained rating criteria to define and calculate Robustness, Context Grounding, and Compliance scores for 24 off-the-shelf models. The results suggest that although some models excel at mitigating input perturbations, they must balance robust answering with the ability to refrain from hallucinating. Notably, Palmyra-Fin-128k-Instruct, recognized as the most compliant model, maintained strong baseline performance but encountered challenges in sustaining robust predictions in 17% of test cases. On the other hand, the most robust model, OpenAI o3-mini, fabricated information in 41% of tested cases. The results demonstrate that even high-performing models have significant room for improvement and highlight the role of FailSafeQA as a tool for developing LLMs optimized for dependability in financial applications. The dataset is available at: https://huggingface.co/datasets/Writer/FailSafeQA

Summary

AI-Generated Summary

PDF1314February 12, 2025