預料之外的挑戰:金融領域的失效安全長文本問答Expect the Unexpected: FailSafe Long Context QA for Finance
我們提出了一個新的長文本金融基準測試 FailSafeQA,旨在測試 LLMs 在金融領域的查詢-回答系統中對人機界面互動的六種變化的韌性和上下文感知能力。我們專注於兩個案例研究:查詢失敗和上下文失敗。在查詢失敗情境中,我們對原始查詢進行干擾,以變化領域專業知識、完整性和語言準確性。在上下文失敗案例中,我們模擬了降級、無關和空白文件的上傳。我們採用 LLM-作為評判的方法,使用 Qwen2.5-72B-Instruct 和細粒度評分標準來定義和計算 24 個現成模型的韌性、上下文基礎和合規性得分。結果表明,雖然一些模型擅長緩解輸入干擾,但它們必須在強大回答和避免妄想的能力之間取得平衡。值得注意的是,被認為是最合規模型的 Palmyra-Fin-128k-Instruct,在維持強大基準性能的同時,在 17% 的測試案例中遇到了維持韌性預測的挑戰。另一方面,最具韌性的模型 OpenAI o3-mini 在 41% 的測試案例中捏造了信息。結果表明,即使高性能模型也有顯著的改進空間,突顯了 FailSafeQA 在開發為金融應用中的可靠性而優化的 LLMs 工具的作用。數據集可在以下鏈接獲取:https://huggingface.co/datasets/Writer/FailSafeQA