Fin-PRM: Ein domänenspezifisches Prozess-Belohnungsmodell für finanzielles Denken in großen Sprachmodellen
Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models
August 21, 2025
papers.authors: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
papers.abstract
Process Reward Models (PRMs) haben sich als vielversprechendes Framework zur Überwachung von Zwischenschritten in der Argumentation großer Sprachmodelle (LLMs) erwiesen. Bisherige PRMs werden jedoch hauptsächlich in allgemeinen oder MINT-Bereichen (Mathematik, Informatik, Naturwissenschaften, Technik) trainiert und sind in domänenspezifischen Kontexten wie der Finanzwelt, wo die Argumentation strukturierter, symbolischer und sensibler gegenüber faktischer und regulatorischer Korrektheit ist, unzureichend. Wir stellen Fin-PRM vor, einen domänenspezialisierten, trajektorienbewussten PRM, der darauf ausgelegt ist, Zwischenschritte in finanziellen Aufgaben zu bewerten. Fin-PRM integriert die Überwachung von Belohnungen auf Schritt- und Trajektorienebene, wodurch eine feingranulare Bewertung von Argumentationspfaden ermöglicht wird, die mit der finanziellen Logik übereinstimmen. Wir wenden Fin-PRM sowohl in Offline- als auch in Online-Belohnungslernsettings an und unterstützen drei Schlüsselanwendungen: (i) die Auswahl hochwertiger Argumentationstrajektorien für die distillationsbasierte überwachte Feinabstimmung, (ii) die Bereitstellung dichter prozessbasierter Belohnungen für bestärkendes Lernen und (iii) die Steuerung von belohnungsinformierter Best-of-N-Inferenz zur Testzeit. Experimentelle Ergebnisse auf finanziellen Argumentationsbenchmarks, einschließlich CFLUE und FinQA, zeigen, dass Fin-PRM durchweg allgemeine PRMs und starke domänenspezifische Baselines in der Qualität der Trajektorienauswahl übertrifft. Downstream-Modelle, die mit Fin-PRM trainiert wurden, erzielen erhebliche Verbesserungen gegenüber den Baselines, mit Steigerungen von 12,9 % im überwachten Lernen, 5,2 % im bestärkenden Lernen und 5,1 % in der Testleistung. Diese Ergebnisse unterstreichen den Wert domänenspezialisierter Belohnungsmodelle für die Ausrichtung von LLMs an expertengestützter finanzieller Argumentation. Unsere Projektressourcen werden unter https://github.com/aliyun/qwen-dianjin verfügbar sein.
English
Process Reward Models (PRMs) have emerged as a promising framework for
supervising intermediate reasoning in large language models (LLMs), yet
existing PRMs are primarily trained on general or Science, Technology,
Engineering, and Mathematics (STEM) domains and fall short in domain-specific
contexts such as finance, where reasoning is more structured, symbolic, and
sensitive to factual and regulatory correctness. We introduce Fin-PRM,
a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate
reasoning steps in financial tasks. Fin-PRM integrates step-level and
trajectory-level reward supervision, enabling fine-grained evaluation of
reasoning traces aligned with financial logic. We apply Fin-PRM in both offline
and online reward learning settings, supporting three key applications: (i)
selecting high-quality reasoning trajectories for distillation-based supervised
fine-tuning, (ii) providing dense process-level rewards for reinforcement
learning, and (iii) guiding reward-informed Best-of-N inference at test time.
Experimental results on financial reasoning benchmarks, including CFLUE and
FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs
and strong domain baselines in trajectory selection quality. Downstream models
trained with Fin-PRM yield substantial improvements with baselines, with gains
of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in
test-time performance. These findings highlight the value of domain-specialized
reward modeling for aligning LLMs with expert-level financial reasoning. Our
project resources will be available at https://github.com/aliyun/qwen-dianjin.