Файл 1: О переносимости улучшенных рассуждений LLM в финансы
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance
February 12, 2025
Авторы: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей (БЯМ) показали сильные общие способности рассуждения, однако их эффективность в финансовом рассуждении остается мало исследованной. В данном исследовании мы всесторонне оцениваем 16 мощных моделей рассуждения и общих БЯМ на трех сложных финансовых задачах, включающих финансовый текст, табличные данные и уравнения, оценивая числовое рассуждение, интерпретацию табличных данных, понимание финансовой терминологии, обработку длинного контекста и решение задач на основе уравнений. Наши результаты показывают, что хотя лучшие наборы данных и предварительное обучение улучшают финансовое рассуждение, общие улучшения, такие как донастройка CoT, не всегда приносят последовательные приросты. Более того, все стратегии рассуждения сталкиваются с трудностями в улучшении производительности на задачах с длинным контекстом и множественными таблицами. Для преодоления этих ограничений мы разрабатываем модель с улучшенным финансовым рассуждением на основе Llama-3.1-8B-Instruct, с помощью донастройки CoT и обучения с подкреплением с использованием областно-специфических путей рассуждения. Даже с простой донастройкой на один финансовый набор данных наша модель достигает последовательного улучшения производительности на 10% по всем задачам, превосходя все модели 8B и даже Llama3-70B-Instruct и Llama3.1-70B-Instruct в среднем. Наши результаты подчеркивают необходимость областно-специфических адаптаций в финансовых задачах, акцентируя внимание на будущих направлениях, таких как рассуждение с множественными таблицами, обработка длинного контекста и понимание финансовой терминологии. Все наши наборы данных, модели и коды доступны публично. Кроме того, мы представляем таблицу лидеров для оценки будущих наборов данных и моделей.
English
Recent advancements in large language models (LLMs) have shown strong general
reasoning abilities, yet their effectiveness in financial reasoning remains
underexplored. In this study, we comprehensively evaluate 16 powerful reasoning
and general LLMs on three complex financial tasks involving financial text,
tabular data, and equations, assessing numerical reasoning, tabular
interpretation, financial terminology comprehension, long-context processing,
and equation-based problem solving. Our results show that while better datasets
and pretraining improve financial reasoning, general enhancements like CoT
fine-tuning do not always yield consistent gains. Moreover, all reasoning
strategies face challenges in improving performance on long-context and
multi-table tasks. To address these limitations, we develop a financial
reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and
reinforcement learning with domain-specific reasoning paths. Even with simple
fine-tuning with one financial dataset, our model achieves a consistent 10%
performance improvement across tasks, surpassing all 8B models and even
Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight
the need for domain-specific adaptations in financial tasks, emphasizing future
directions such as multi-table reasoning, long-context processing, and
financial terminology comprehension. All our datasets, models, and codes are
publicly available. Furthermore, we introduce a leaderboard for benchmarking
future datasets and models.Summary
AI-Generated Summary