UCFE: Un benchmark di competenze finanziarie centrato sull'utente per modelli linguistici di grandi dimensioni
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
Autori: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
Abstract
Questo articolo introduce l'UCFE: User-Centric Financial Expertise benchmark, un innovativo framework progettato per valutare l'abilità dei grandi modelli linguistici (LLM) nel gestire compiti finanziari complessi del mondo reale. Il benchmark UCFE adotta un approccio ibrido che combina valutazioni di esperti umani con interazioni dinamiche e specifiche per il compito per simulare le complessità degli scenari finanziari in evoluzione. In primo luogo, abbiamo condotto uno studio utente coinvolgendo 804 partecipanti, raccogliendo i loro feedback su compiti finanziari. In secondo luogo, basandoci su questi feedback, abbiamo creato il nostro dataset che comprende una vasta gamma di intenti e interazioni degli utenti. Questo dataset serve da base per il confronto delle prestazioni di 12 servizi LLM utilizzando la metodologia LLM-come-Giudice. I nostri risultati mostrano un significativo allineamento tra i punteggi del benchmark e le preferenze umane, con un coefficiente di correlazione di Pearson pari a 0,78, confermando l'efficacia del dataset UCFE e del nostro approccio di valutazione. Il benchmark UCFE non solo rivela il potenziale dei LLM nel settore finanziario, ma fornisce anche un solido framework per valutare le loro prestazioni e la soddisfazione degli utenti. Il dataset di benchmark e il codice di valutazione sono disponibili.
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.