DianJin-R1: 大規模言語モデルの金融推論能力の評価と強化
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
著者: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
要旨
効果的な推論能力は、金融領域における大規模言語モデル(LLM)の核心的な課題であり続けています。この領域では、ドメイン固有の知識、精密な数値計算、およびコンプライアンス規則への厳格な遵守が求められるタスクが頻繁に発生します。本論文では、これらの課題に対処するために、推論を強化したフレームワーク「DianJin-R1」を提案します。このフレームワークは、推論を補強した監視と強化学習を通じて設計されています。我々のアプローチの中核となるのは、CFLUE、FinQA、および独自のコンプライアンスコーパス(中国コンプライアンスチェック、CCC)から構築された高品質なデータセット「DianJin-R1-Data」です。このデータセットは、多様な金融推論シナリオと検証済みのアノテーションを組み合わせています。我々のモデルである「DianJin-R1-7B」と「DianJin-R1-32B」は、Qwen2.5-7B-InstructとQwen2.5-32B-Instructを基に、推論ステップと最終回答の両方を生成する構造化された形式でファインチューニングされています。推論品質をさらに向上させるために、構造化された出力を奨励し、回答の正確性を報酬とする二重の報酬信号を組み込んだ強化学習手法「Group Relative Policy Optimization(GRPO)」を適用しています。我々は、5つのベンチマークでモデルを評価しました。これには、3つの金融データセット(CFLUE、FinQA、CCC)と2つの一般的な推論ベンチマーク(MATH-500とGPQA-Diamond)が含まれます。実験結果は、DianJin-R1モデルが、特に複雑な金融タスクにおいて、非推論モデルを一貫して上回ることを示しています。さらに、実世界のCCCデータセットでは、我々の単一呼び出し推論モデルが、大幅に多くの計算コストを必要とするマルチエージェントシステムの性能に匹敵し、それを凌駕することさえあります。これらの発見は、構造化された監視と報酬整合学習を通じて金融推論を強化するDianJin-R1の有効性を実証し、実世界のアプリケーションにおけるスケーラブルで実用的なソリューションを提供します。
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary