ChatPaper.aiChatPaper

Fin-PRM: Un Modello di Ricompensa dei Processi Specializzato nel Dominio per il Ragionamento Finanziario nei Modelli Linguistici di Grande Scala

Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

August 21, 2025
Autori: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI

Abstract

I modelli di ricompensa basati sul processo (PRM) sono emersi come un quadro promettente per supervisionare il ragionamento intermedio nei grandi modelli linguistici (LLM). Tuttavia, i PRM esistenti sono principalmente addestrati su domini generali o STEM (Scienza, Tecnologia, Ingegneria e Matematica) e risultano carenti in contesti specifici come quello finanziario, dove il ragionamento è più strutturato, simbolico e sensibile alla correttezza fattuale e normativa. Introduciamo Fin-PRM, un PRM specializzato nel dominio e consapevole delle traiettorie, progettato per valutare i passaggi di ragionamento intermedi nei compiti finanziari. Fin-PRM integra una supervisione della ricompensa a livello di passaggio e di traiettoria, consentendo una valutazione granulare delle tracce di ragionamento allineate con la logica finanziaria. Applichiamo Fin-PRM sia in contesti di apprendimento della ricompensa offline che online, supportando tre applicazioni chiave: (i) selezionare traiettorie di ragionamento di alta qualità per il fine-tuning supervisionato basato sulla distillazione, (ii) fornire ricompense dense a livello di processo per l'apprendimento per rinforzo, e (iii) guidare l'inferenza Best-of-N informata dalla ricompensa al momento del test. I risultati sperimentali su benchmark di ragionamento finanziario, inclusi CFLUE e FinQA, dimostrano che Fin-PRM supera costantemente i PRM generici e i forti baseline di dominio nella qualità della selezione delle traiettorie. I modelli downstream addestrati con Fin-PRM mostrano miglioramenti sostanziali rispetto ai baseline, con guadagni del 12,9% nell'apprendimento supervisionato, del 5,2% nell'apprendimento per rinforzo e del 5,1% nelle prestazioni al momento del test. Questi risultati evidenziano il valore della modellazione della ricompensa specializzata nel dominio per allineare i LLM con il ragionamento finanziario di livello esperto. Le risorse del nostro progetto saranno disponibili all'indirizzo https://github.com/aliyun/qwen-dianjin.
English
Process Reward Models (PRMs) have emerged as a promising framework for supervising intermediate reasoning in large language models (LLMs), yet existing PRMs are primarily trained on general or Science, Technology, Engineering, and Mathematics (STEM) domains and fall short in domain-specific contexts such as finance, where reasoning is more structured, symbolic, and sensitive to factual and regulatory correctness. We introduce Fin-PRM, a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate reasoning steps in financial tasks. Fin-PRM integrates step-level and trajectory-level reward supervision, enabling fine-grained evaluation of reasoning traces aligned with financial logic. We apply Fin-PRM in both offline and online reward learning settings, supporting three key applications: (i) selecting high-quality reasoning trajectories for distillation-based supervised fine-tuning, (ii) providing dense process-level rewards for reinforcement learning, and (iii) guiding reward-informed Best-of-N inference at test time. Experimental results on financial reasoning benchmarks, including CFLUE and FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs and strong domain baselines in trajectory selection quality. Downstream models trained with Fin-PRM yield substantial improvements with baselines, with gains of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in test-time performance. These findings highlight the value of domain-specialized reward modeling for aligning LLMs with expert-level financial reasoning. Our project resources will be available at https://github.com/aliyun/qwen-dianjin.
PDF42August 22, 2025