UCFE: Um Referencial de Expertise Financeira Centrado no Usuário para Modelos de Linguagem de Grande Escala
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
Autores: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
Resumo
Este artigo apresenta o UCFE: User-Centric Financial Expertise benchmark, um framework inovador projetado para avaliar a capacidade de grandes modelos de linguagem (LLMs) lidarem com tarefas financeiras do mundo real complexas. O benchmark UCFE adota uma abordagem híbrida que combina avaliações de especialistas humanos com interações dinâmicas e específicas da tarefa para simular as complexidades de cenários financeiros em evolução. Em primeiro lugar, realizamos um estudo de usuário envolvendo 804 participantes, coletando seus feedbacks sobre tarefas financeiras. Em segundo lugar, com base nesses feedbacks, criamos nosso conjunto de dados que abrange uma ampla gama de intenções e interações do usuário. Este conjunto de dados serve como base para a avaliação de 12 serviços LLM usando a metodologia LLM-como-Juíz. Nossos resultados mostram uma significativa concordância entre as pontuações do benchmark e as preferências humanas, com um coeficiente de correlação de Pearson de 0,78, confirmando a eficácia do conjunto de dados UCFE e nossa abordagem de avaliação. O benchmark UCFE não apenas revela o potencial dos LLMs no setor financeiro, mas também fornece um framework robusto para avaliar seu desempenho e a satisfação do usuário. O conjunto de dados do benchmark e o código de avaliação estão disponíveis.
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.Summary
AI-Generated Summary