UCFE:面向用户的大型语言模型金融专业水平基准UCFE: A User-Centric Financial Expertise Benchmark for Large Language
Models
本文介绍了UCFE:用户中心金融专业基准,这是一个创新框架,旨在评估大型语言模型(LLMs)处理复杂现实世界金融任务的能力。UCFE基准采用混合方法,将人类专家评估与动态、任务特定的交互相结合,以模拟不断发展的金融情景的复杂性。首先,我们进行了涉及804名参与者的用户研究,收集了他们对金融任务的反馈。其次,基于这些反馈,我们创建了涵盖广泛用户意图和交互的数据集。该数据集为使用LLM作为评判者方法对12个LLM服务进行基准测试奠定了基础。我们的结果显示,基准分数与人类偏好之间存在显著一致性,皮尔逊相关系数为0.78,证实了UCFE数据集和我们的评估方法的有效性。UCFE基准不仅揭示了LLMs在金融领域的潜力,还为评估它们的表现和用户满意度提供了一个强大的框架。基准数据集和评估代码可供使用。