ChatPaper.aiChatPaper

Файл 1: О переносимости улучшенных рассуждений LLM в финансы

Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

February 12, 2025
Авторы: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI

Аннотация

Недавние достижения в области больших языковых моделей (БЯМ) показали сильные общие способности рассуждения, однако их эффективность в финансовом рассуждении остается мало исследованной. В данном исследовании мы всесторонне оцениваем 16 мощных моделей рассуждения и общих БЯМ на трех сложных финансовых задачах, включающих финансовый текст, табличные данные и уравнения, оценивая числовое рассуждение, интерпретацию табличных данных, понимание финансовой терминологии, обработку длинного контекста и решение задач на основе уравнений. Наши результаты показывают, что хотя лучшие наборы данных и предварительное обучение улучшают финансовое рассуждение, общие улучшения, такие как донастройка CoT, не всегда приносят последовательные приросты. Более того, все стратегии рассуждения сталкиваются с трудностями в улучшении производительности на задачах с длинным контекстом и множественными таблицами. Для преодоления этих ограничений мы разрабатываем модель с улучшенным финансовым рассуждением на основе Llama-3.1-8B-Instruct, с помощью донастройки CoT и обучения с подкреплением с использованием областно-специфических путей рассуждения. Даже с простой донастройкой на один финансовый набор данных наша модель достигает последовательного улучшения производительности на 10% по всем задачам, превосходя все модели 8B и даже Llama3-70B-Instruct и Llama3.1-70B-Instruct в среднем. Наши результаты подчеркивают необходимость областно-специфических адаптаций в финансовых задачах, акцентируя внимание на будущих направлениях, таких как рассуждение с множественными таблицами, обработка длинного контекста и понимание финансовой терминологии. Все наши наборы данных, модели и коды доступны публично. Кроме того, мы представляем таблицу лидеров для оценки будущих наборов данных и моделей.
English
Recent advancements in large language models (LLMs) have shown strong general reasoning abilities, yet their effectiveness in financial reasoning remains underexplored. In this study, we comprehensively evaluate 16 powerful reasoning and general LLMs on three complex financial tasks involving financial text, tabular data, and equations, assessing numerical reasoning, tabular interpretation, financial terminology comprehension, long-context processing, and equation-based problem solving. Our results show that while better datasets and pretraining improve financial reasoning, general enhancements like CoT fine-tuning do not always yield consistent gains. Moreover, all reasoning strategies face challenges in improving performance on long-context and multi-table tasks. To address these limitations, we develop a financial reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and reinforcement learning with domain-specific reasoning paths. Even with simple fine-tuning with one financial dataset, our model achieves a consistent 10% performance improvement across tasks, surpassing all 8B models and even Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight the need for domain-specific adaptations in financial tasks, emphasizing future directions such as multi-table reasoning, long-context processing, and financial terminology comprehension. All our datasets, models, and codes are publicly available. Furthermore, we introduce a leaderboard for benchmarking future datasets and models.

Summary

AI-Generated Summary

PDF565February 13, 2025