Fin-PRM: 大規模言語モデルにおける金融推論のためのドメイン特化型プロセス報酬モデル
Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models
August 21, 2025
著者: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
要旨
プロセス報酬モデル(PRM)は、大規模言語モデル(LLM)の中間推論を監督するための有望なフレームワークとして登場しましたが、既存のPRMは主に一般的な領域や科学・技術・工学・数学(STEM)領域で訓練されており、金融などのドメイン固有の文脈では、推論がより構造化され、記号的で、事実的および規制上の正確性に敏感であるため、不十分です。本論文では、金融タスクの中間推論ステップを評価するために特化した、軌跡を意識したドメイン特化型PRMであるFin-PRMを紹介します。Fin-PRMは、ステップレベルと軌跡レベルの報酬監督を統合し、金融ロジックに沿った推論トレースのきめ細かい評価を可能にします。Fin-PRMをオフラインおよびオンラインの報酬学習設定で適用し、以下の3つの主要なアプリケーションをサポートします:(i)蒸留ベースの教師ありファインチューニングのための高品質な推論軌跡の選択、(ii)強化学習のための密なプロセスレベル報酬の提供、(iii)テスト時の報酬情報に基づくBest-of-N推論のガイド。CFLUEやFinQAなどの金融推論ベンチマークでの実験結果は、Fin-PRMが軌跡選択の品質において、汎用PRMや強力なドメインベースラインを一貫して上回ることを示しています。Fin-PRMで訓練された下流モデルは、ベースラインと比較して、教師あり学習で12.9%、強化学習で5.2%、テスト時のパフォーマンスで5.1%の大幅な改善をもたらします。これらの結果は、LLMを専門家レベルの金融推論に適合させるためのドメイン特化型報酬モデリングの価値を強調しています。本プロジェクトのリソースはhttps://github.com/aliyun/qwen-dianjinで公開予定です。
English
Process Reward Models (PRMs) have emerged as a promising framework for
supervising intermediate reasoning in large language models (LLMs), yet
existing PRMs are primarily trained on general or Science, Technology,
Engineering, and Mathematics (STEM) domains and fall short in domain-specific
contexts such as finance, where reasoning is more structured, symbolic, and
sensitive to factual and regulatory correctness. We introduce Fin-PRM,
a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate
reasoning steps in financial tasks. Fin-PRM integrates step-level and
trajectory-level reward supervision, enabling fine-grained evaluation of
reasoning traces aligned with financial logic. We apply Fin-PRM in both offline
and online reward learning settings, supporting three key applications: (i)
selecting high-quality reasoning trajectories for distillation-based supervised
fine-tuning, (ii) providing dense process-level rewards for reinforcement
learning, and (iii) guiding reward-informed Best-of-N inference at test time.
Experimental results on financial reasoning benchmarks, including CFLUE and
FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs
and strong domain baselines in trajectory selection quality. Downstream models
trained with Fin-PRM yield substantial improvements with baselines, with gains
of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in
test-time performance. These findings highlight the value of domain-specialized
reward modeling for aligning LLMs with expert-level financial reasoning. Our
project resources will be available at https://github.com/aliyun/qwen-dianjin.