ChatPaper.aiChatPaper

Fin-PRM : Un modèle de récompense de processus spécialisé pour le raisonnement financier dans les grands modèles de langage

Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

August 21, 2025
papers.authors: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI

papers.abstract

Les modèles de récompense de processus (PRM) ont émergé comme un cadre prometteur pour superviser le raisonnement intermédiaire dans les grands modèles de langage (LLM). Cependant, les PRM existants sont principalement entraînés sur des domaines généraux ou scientifiques, technologiques, ingénieriques et mathématiques (STEM), et se révèlent insuffisants dans des contextes spécifiques comme la finance, où le raisonnement est plus structuré, symbolique et sensible à l'exactitude factuelle et réglementaire. Nous présentons Fin-PRM, un PRM spécialisé dans un domaine et conscient des trajectoires, conçu pour évaluer les étapes de raisonnement intermédiaire dans les tâches financières. Fin-PRM intègre une supervision des récompenses au niveau des étapes et des trajectoires, permettant une évaluation fine des traces de raisonnement alignées sur la logique financière. Nous appliquons Fin-PRM dans des contextes d'apprentissage de récompenses hors ligne et en ligne, soutenant trois applications clés : (i) la sélection de trajectoires de raisonnement de haute qualité pour un réglage fin supervisé basé sur la distillation, (ii) la fourniture de récompenses denses au niveau du processus pour l'apprentissage par renforcement, et (iii) le guidage de l'inférence Best-of-N informée par les récompenses au moment du test. Les résultats expérimentaux sur des benchmarks de raisonnement financier, notamment CFLUE et FinQA, montrent que Fin-PRM surpasse systématiquement les PRM généralistes et les bases de référence spécifiques au domaine en termes de qualité de sélection des trajectoires. Les modèles en aval entraînés avec Fin-PRM montrent des améliorations substantielles par rapport aux bases de référence, avec des gains de 12,9 % en apprentissage supervisé, 5,2 % en apprentissage par renforcement et 5,1 % en performance au moment du test. Ces résultats mettent en lumière la valeur de la modélisation des récompenses spécialisée dans un domaine pour aligner les LLM sur un raisonnement financier de niveau expert. Nos ressources de projet seront disponibles à l'adresse https://github.com/aliyun/qwen-dianjin.
English
Process Reward Models (PRMs) have emerged as a promising framework for supervising intermediate reasoning in large language models (LLMs), yet existing PRMs are primarily trained on general or Science, Technology, Engineering, and Mathematics (STEM) domains and fall short in domain-specific contexts such as finance, where reasoning is more structured, symbolic, and sensitive to factual and regulatory correctness. We introduce Fin-PRM, a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate reasoning steps in financial tasks. Fin-PRM integrates step-level and trajectory-level reward supervision, enabling fine-grained evaluation of reasoning traces aligned with financial logic. We apply Fin-PRM in both offline and online reward learning settings, supporting three key applications: (i) selecting high-quality reasoning trajectories for distillation-based supervised fine-tuning, (ii) providing dense process-level rewards for reinforcement learning, and (iii) guiding reward-informed Best-of-N inference at test time. Experimental results on financial reasoning benchmarks, including CFLUE and FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs and strong domain baselines in trajectory selection quality. Downstream models trained with Fin-PRM yield substantial improvements with baselines, with gains of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in test-time performance. These findings highlight the value of domain-specialized reward modeling for aligning LLMs with expert-level financial reasoning. Our project resources will be available at https://github.com/aliyun/qwen-dianjin.
PDF32August 22, 2025