ChatPaper.aiChatPaper

Fin-PRM: Een domeinspecifiek procesbeloningsmodel voor financieel redeneren in grote taalmodellen

Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

August 21, 2025
Auteurs: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI

Samenvatting

Process Reward Models (PRMs) zijn naar voren gekomen als een veelbelovend raamwerk voor het toezicht houden op tussentijdse redenering in grote taalmodellen (LLMs), maar bestaande PRMs zijn voornamelijk getraind op algemene of Science, Technology, Engineering, and Mathematics (STEM)-domeinen en schieten tekort in domeinspecifieke contexten zoals financiën, waar redenering meer gestructureerd, symbolisch en gevoelig is voor feitelijke en regelgevende correctheid. We introduceren Fin-PRM, een domeingespecialiseerd, trajectbewust PRM dat is afgestemd op het evalueren van tussentijdse redeneringsstappen in financiële taken. Fin-PRM integreert stapniveau- en trajectniveau-beloningssupervisie, waardoor een fijnmazige evaluatie van redeneringstrajecten mogelijk wordt die is afgestemd op financiële logica. We passen Fin-PRM toe in zowel offline als online beloningsleerinstellingen, waarbij drie belangrijke toepassingen worden ondersteund: (i) het selecteren van hoogwaardige redeneringstrajecten voor distillatiegebaseerde supervised fine-tuning, (ii) het bieden van dichte procesniveau-beloningen voor reinforcement learning, en (iii) het begeleiden van beloningsgeïnformeerde Best-of-N inferentie tijdens de testfase. Experimentele resultaten op financiële redeneringsbenchmarks, waaronder CFLUE en FinQA, tonen aan dat Fin-PRM consistent beter presteert dan algemene PRMs en sterke domeinbaselines in de kwaliteit van trajectselectie. Downstream modellen die zijn getraind met Fin-PRM leveren aanzienlijke verbeteringen op ten opzichte van baselines, met winsten van 12,9\% in supervised learning, 5,2\% in reinforcement learning, en 5,1\% in testprestaties. Deze bevindingen benadrukken de waarde van domeingespecialiseerd beloningsmodelleren voor het afstemmen van LLMs op expertniveau financiële redenering. Onze projectbronnen zullen beschikbaar zijn op https://github.com/aliyun/qwen-dianjin.
English
Process Reward Models (PRMs) have emerged as a promising framework for supervising intermediate reasoning in large language models (LLMs), yet existing PRMs are primarily trained on general or Science, Technology, Engineering, and Mathematics (STEM) domains and fall short in domain-specific contexts such as finance, where reasoning is more structured, symbolic, and sensitive to factual and regulatory correctness. We introduce Fin-PRM, a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate reasoning steps in financial tasks. Fin-PRM integrates step-level and trajectory-level reward supervision, enabling fine-grained evaluation of reasoning traces aligned with financial logic. We apply Fin-PRM in both offline and online reward learning settings, supporting three key applications: (i) selecting high-quality reasoning trajectories for distillation-based supervised fine-tuning, (ii) providing dense process-level rewards for reinforcement learning, and (iii) guiding reward-informed Best-of-N inference at test time. Experimental results on financial reasoning benchmarks, including CFLUE and FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs and strong domain baselines in trajectory selection quality. Downstream models trained with Fin-PRM yield substantial improvements with baselines, with gains of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in test-time performance. These findings highlight the value of domain-specialized reward modeling for aligning LLMs with expert-level financial reasoning. Our project resources will be available at https://github.com/aliyun/qwen-dianjin.
PDF42August 22, 2025