O FinBen: Um Benchmark Financeiro Holístico para Modelos de Linguagem de Grande Escala

Resumo

Os LLMs transformaram o NLP e demonstraram potencial em diversos campos, mas seu uso em finanças ainda é pouco explorado devido à falta de avaliações abrangentes e à complexidade das tarefas financeiras. Isso, aliado ao rápido desenvolvimento dos LLMs, destaca a necessidade urgente de um benchmark sistemático de avaliação financeira para esses modelos. Neste artigo, apresentamos o FinBen, o primeiro benchmark de avaliação abrangente e de código aberto, projetado especificamente para avaliar minuciosamente as capacidades dos LLMs no domínio financeiro. O FinBen abrange 35 conjuntos de dados em 23 tarefas financeiras, organizados em três espectros de dificuldade inspirados na teoria Cattell-Horn-Carroll, para avaliar as habilidades cognitivas dos LLMs em raciocínio indutivo, memória associativa, raciocínio quantitativo, inteligência cristalizada e mais. Nossa avaliação de 15 LLMs representativos, incluindo GPT-4, ChatGPT e o mais recente Gemini, revela insights sobre seus pontos fortes e limitações no domínio financeiro. Os resultados indicam que o GPT-4 se destaca em quantificação, extração, raciocínio numérico e negociação de ações, enquanto o Gemini brilha em geração e previsão; no entanto, ambos enfrentam dificuldades em extração complexa e previsão, mostrando uma clara necessidade de aprimoramentos direcionados. O ajuste por instrução melhora o desempenho em tarefas simples, mas não é suficiente para aprimorar habilidades complexas de raciocínio e previsão. O FinBen busca avaliar continuamente os LLMs em finanças, promovendo o desenvolvimento da IA com atualizações regulares de tarefas e modelos.

English

LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.

O FinBen: Um Benchmark Financeiro Holístico para Modelos de Linguagem de Grande Escala

The FinBen: An Holistic Financial Benchmark for Large Language Models

Resumo

Support