料想不到:金融领域的故障安全长文本问答Expect the Unexpected: FailSafe Long Context QA for Finance
我们提出了一个新的长文本金融基准测试集FailSafeQA,旨在测试基于LLM的问答系统在金融领域中的六种人机交互变化下的鲁棒性和上下文感知能力。我们专注于两个案例研究:查询失败和上下文失败。在查询失败场景中,我们扰动原始查询以在领域专业知识、完整性和语言准确性上产生变化。在上下文失败案例中,我们模拟了降级、无关和空文档的上传。我们采用LLM作为评判者的方法,使用Qwen2.5-72B-Instruct,并使用细粒度评分标准为24个现成模型定义和计算鲁棒性、上下文基础和符合性得分。结果表明,尽管一些模型擅长缓解输入扰动,但它们必须在稳健回答和避免产生幻觉的能力之间取得平衡。值得注意的是,被认为是最符合规范的模型Palmyra-Fin-128k-Instruct,在保持强大基准性能的同时,在17%的测试案例中遇到了维持稳健预测的挑战。另一方面,最具鲁棒性的模型OpenAI o3-mini,在41%的测试案例中捏造信息。结果表明,即使高性能模型也有很大的改进空间,并突出了FailSafeQA作为开发针对金融应用中可靠性优化的LLM的工具的作用。数据集可在以下链接获取:https://huggingface.co/datasets/Writer/FailSafeQA