Fino1: 財務への推論強化LLMの転移可能性
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance
February 12, 2025
著者: Lingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
cs.AI
要旨
最近の大規模言語モデル(LLM)の進歩により、強力な一般的な推論能力が示されていますが、金融推論における効果は未だに未開拓の領域です。本研究では、金融テキスト、表形式データ、および方程式を含む3つの複雑な金融タスクにおいて、16の強力な推論および一般的なLLMを包括的に評価し、数値推論、表形式解釈、金融用語理解、長文脈処理、および方程式に基づく問題解決を評価しました。結果は、より良いデータセットと事前学習が金融推論を向上させる一方、CoTのような一般的な強化は常に一貫した利益をもたらすわけではないことを示しています。さらに、すべての推論戦略が長文脈および複数の表形式タスクでのパフォーマンス向上に向けて課題に直面しています。これらの制限に対処するため、特定のドメイン推論パスを用いたCoTのファインチューニングと強化学習により、Llama-3.1-8B-Instructに基づく金融推論強化モデルを開発しました。1つの金融データセットでの簡単なファインチューニングでも、当社のモデルはタスク全体で一貫した10%のパフォーマンス向上を達成し、すべての8Bモデルを上回り、平均してLlama3-70B-InstructおよびLlama3.1-70B-Instructをも凌駕しています。結果は、金融タスクにおける特定のドメイン適応の必要性を強調し、複数の表形式推論、長文脈処理、および金融用語理解などの将来の方向性を重視しています。すべてのデータセット、モデル、コードは公開されています。さらに、将来のデータセットとモデルのベンチマークテストのためのリーダーボードを導入しています。
English
Recent advancements in large language models (LLMs) have shown strong general
reasoning abilities, yet their effectiveness in financial reasoning remains
underexplored. In this study, we comprehensively evaluate 16 powerful reasoning
and general LLMs on three complex financial tasks involving financial text,
tabular data, and equations, assessing numerical reasoning, tabular
interpretation, financial terminology comprehension, long-context processing,
and equation-based problem solving. Our results show that while better datasets
and pretraining improve financial reasoning, general enhancements like CoT
fine-tuning do not always yield consistent gains. Moreover, all reasoning
strategies face challenges in improving performance on long-context and
multi-table tasks. To address these limitations, we develop a financial
reasoning-enhanced model based on Llama-3.1-8B-Instruct, by CoT fine-tuning and
reinforcement learning with domain-specific reasoning paths. Even with simple
fine-tuning with one financial dataset, our model achieves a consistent 10%
performance improvement across tasks, surpassing all 8B models and even
Llama3-70B-Instruct and Llama3.1-70B-Instruct on average. Our results highlight
the need for domain-specific adaptations in financial tasks, emphasizing future
directions such as multi-table reasoning, long-context processing, and
financial terminology comprehension. All our datasets, models, and codes are
publicly available. Furthermore, we introduce a leaderboard for benchmarking
future datasets and models.Summary
AI-Generated Summary