UCFE: Un punto de referencia de experiencia financiera centrado en el usuario para modelos de lenguaje grandesUCFE: A User-Centric Financial Expertise Benchmark for Large Language
Models
Este documento presenta el UCFE: User-Centric Financial Expertise benchmark, un marco innovador diseñado para evaluar la capacidad de los modelos de lenguaje grandes (LLMs) para manejar tareas financieras del mundo real complejas. El benchmark UCFE adopta un enfoque híbrido que combina evaluaciones de expertos humanos con interacciones dinámicas específicas de la tarea para simular las complejidades de escenarios financieros en evolución. En primer lugar, realizamos un estudio de usuarios que involucró a 804 participantes, recopilando sus opiniones sobre tareas financieras. En segundo lugar, basándonos en estas opiniones, creamos nuestro conjunto de datos que abarca una amplia gama de intenciones e interacciones de los usuarios. Este conjunto de datos sirve como base para evaluar 12 servicios LLM utilizando la metodología LLM-como-Juez. Nuestros resultados muestran una alineación significativa entre las puntuaciones del benchmark y las preferencias humanas, con un coeficiente de correlación de Pearson de 0.78, confirmando la efectividad del conjunto de datos UCFE y nuestro enfoque de evaluación. El benchmark UCFE no solo revela el potencial de los LLMs en el sector financiero, sino que también proporciona un marco sólido para evaluar su rendimiento y la satisfacción del usuario. El conjunto de datos del benchmark y el código de evaluación están disponibles.