UCFE: Um Referencial de Expertise Financeira Centrado no Usuário para Modelos de Linguagem de Grande EscalaUCFE: A User-Centric Financial Expertise Benchmark for Large Language
Models
Este artigo apresenta o UCFE: User-Centric Financial Expertise benchmark, um framework inovador projetado para avaliar a capacidade de grandes modelos de linguagem (LLMs) lidarem com tarefas financeiras do mundo real complexas. O benchmark UCFE adota uma abordagem híbrida que combina avaliações de especialistas humanos com interações dinâmicas e específicas da tarefa para simular as complexidades de cenários financeiros em evolução. Em primeiro lugar, realizamos um estudo de usuário envolvendo 804 participantes, coletando seus feedbacks sobre tarefas financeiras. Em segundo lugar, com base nesses feedbacks, criamos nosso conjunto de dados que abrange uma ampla gama de intenções e interações do usuário. Este conjunto de dados serve como base para a avaliação de 12 serviços LLM usando a metodologia LLM-como-Juíz. Nossos resultados mostram uma significativa concordância entre as pontuações do benchmark e as preferências humanas, com um coeficiente de correlação de Pearson de 0,78, confirmando a eficácia do conjunto de dados UCFE e nossa abordagem de avaliação. O benchmark UCFE não apenas revela o potencial dos LLMs no setor financeiro, mas também fornece um framework robusto para avaliar seu desempenho e a satisfação do usuário. O conjunto de dados do benchmark e o código de avaliação estão disponíveis.