El FinBen: Un punto de referencia financiero integral para modelos de lenguaje de gran escala

Resumen

Los LLM han transformado el PLN y han demostrado potencial en diversos campos, aunque su aplicación en finanzas está poco explorada debido a la falta de evaluaciones exhaustivas y la complejidad de las tareas financieras. Esto, junto con el rápido desarrollo de los LLM, subraya la necesidad urgente de un benchmark sistemático de evaluación financiera para estos modelos. En este artículo, presentamos FinBen, el primer benchmark de evaluación integral y de código abierto, diseñado específicamente para evaluar a fondo las capacidades de los LLM en el ámbito financiero. FinBen abarca 35 conjuntos de datos en 23 tareas financieras, organizadas en tres espectros de dificultad inspirados en la teoría de Cattell-Horn-Carroll, para evaluar las habilidades cognitivas de los LLM en razonamiento inductivo, memoria asociativa, razonamiento cuantitativo, inteligencia cristalizada y más. Nuestra evaluación de 15 LLM representativos, incluyendo GPT-4, ChatGPT y el último Gemini, revela sus fortalezas y limitaciones en el dominio financiero. Los hallazgos indican que GPT-4 lidera en cuantificación, extracción, razonamiento numérico y operaciones bursátiles, mientras que Gemini destaca en generación y predicción; sin embargo, ambos tienen dificultades con la extracción compleja y la predicción, mostrando una clara necesidad de mejoras específicas. El ajuste por instrucciones mejora el rendimiento en tareas simples, pero no logra potenciar las habilidades de razonamiento complejo y predicción. FinBen busca evaluar continuamente los LLM en finanzas, fomentando el desarrollo de la IA con actualizaciones periódicas de tareas y modelos.

English

LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.

El FinBen: Un punto de referencia financiero integral para modelos de lenguaje de gran escala

The FinBen: An Holistic Financial Benchmark for Large Language Models

Resumen

Support