UCFE: Un punto de referencia de experiencia financiera centrado en el usuario para modelos de lenguaje grandes
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models
October 17, 2024
Autores: Yuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang
cs.AI
Resumen
Este documento presenta el UCFE: User-Centric Financial Expertise benchmark, un marco innovador diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLMs) para manejar tareas financieras del mundo real complejas. El benchmark UCFE adopta un enfoque híbrido que combina evaluaciones de expertos humanos con interacciones dinámicas específicas de la tarea para simular las complejidades de escenarios financieros en evolución. En primer lugar, realizamos un estudio de usuarios que involucró a 804 participantes, recopilando sus opiniones sobre tareas financieras. En segundo lugar, basándonos en estas opiniones, creamos nuestro conjunto de datos que abarca una amplia gama de intenciones e interacciones de los usuarios. Este conjunto de datos sirve como base para evaluar 12 servicios LLM utilizando la metodología LLM-como-Juez. Nuestros resultados muestran una alineación significativa entre las puntuaciones del benchmark y las preferencias humanas, con un coeficiente de correlación de Pearson de 0.78, confirmando la efectividad del conjunto de datos UCFE y nuestro enfoque de evaluación. El benchmark UCFE no solo revela el potencial de los LLMs en el sector financiero, sino que también proporciona un marco sólido para evaluar su rendimiento y la satisfacción del usuario. El conjunto de datos del benchmark y el código de evaluación están disponibles.
English
This paper introduces the UCFE: User-Centric Financial Expertise benchmark,
an innovative framework designed to evaluate the ability of large language
models (LLMs) to handle complex real-world financial tasks. UCFE benchmark
adopts a hybrid approach that combines human expert evaluations with dynamic,
task-specific interactions to simulate the complexities of evolving financial
scenarios. Firstly, we conducted a user study involving 804 participants,
collecting their feedback on financial tasks. Secondly, based on this feedback,
we created our dataset that encompasses a wide range of user intents and
interactions. This dataset serves as the foundation for benchmarking 12 LLM
services using the LLM-as-Judge methodology. Our results show a significant
alignment between benchmark scores and human preferences, with a Pearson
correlation coefficient of 0.78, confirming the effectiveness of the UCFE
dataset and our evaluation approach. UCFE benchmark not only reveals the
potential of LLMs in the financial sector but also provides a robust framework
for assessing their performance and user satisfaction.The benchmark dataset and
evaluation code are available.Summary
AI-Generated Summary