ChatPaper.aiChatPaper

FinBen: Комплексный финансовый эталон для больших языковых моделей

The FinBen: An Holistic Financial Benchmark for Large Language Models

February 20, 2024
Авторы: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, Jimin Huang
cs.AI

Аннотация

Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP) и продемонстрировали потенциал в различных сферах, однако их возможности в финансах остаются недостаточно изученными из-за отсутствия тщательных оценок и сложности финансовых задач. Это, наряду с быстрым развитием LLM, подчеркивает острую необходимость в систематическом бенчмарке для оценки их финансовых возможностей. В данной статье мы представляем FinBen — первый всесторонний открытый бенчмарк, специально разработанный для глубокой оценки способностей LLM в финансовой области. FinBen включает 35 наборов данных, охватывающих 23 финансовые задачи, организованные в три уровня сложности, вдохновленные теорией Кеттелла-Хорна-Кэрролла, чтобы оценить когнитивные способности LLM в индуктивном рассуждении, ассоциативной памяти, количественном анализе, кристаллизованном интеллекте и других аспектах. Наша оценка 15 репрезентативных LLM, включая GPT-4, ChatGPT и новейшую Gemini, выявила их сильные и слабые стороны в финансовой сфере. Результаты показывают, что GPT-4 лидирует в количественном анализе, извлечении данных, численном рассуждении и торговле акциями, в то время как Gemini выделяется в генерации и прогнозировании; однако обе модели испытывают трудности с комплексным извлечением данных и прогнозированием, что указывает на явную необходимость целенаправленных улучшений. Тюнинг на инструкциях улучшает производительность в простых задачах, но не способствует значительному улучшению сложного рассуждения и прогнозирования. FinBen стремится к непрерывной оценке LLM в финансах, способствуя развитию ИИ за счет регулярного обновления задач и моделей.
English
LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.

Summary

AI-Generated Summary

PDF225December 15, 2024