Fin-PRM: Un Modelo de Recompensa de Procesos Especializado en el Dominio para el Razonamiento Financiero en Modelos de Lenguaje de Gran Escala
Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models
August 21, 2025
Autores: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Resumen
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) han surgido como un marco prometedor para supervisar el razonamiento intermedio en modelos de lenguaje de gran escala (LLMs). Sin embargo, los PRMs existentes se entrenan principalmente en dominios generales o de Ciencia, Tecnología, Ingeniería y Matemáticas (STEM) y no alcanzan un rendimiento óptimo en contextos específicos como el financiero, donde el razonamiento es más estructurado, simbólico y sensible a la corrección factual y regulatoria. Presentamos Fin-PRM, un PRM especializado en dominios y consciente de trayectorias, diseñado para evaluar pasos intermedios de razonamiento en tareas financieras. Fin-PRM integra supervisión de recompensas a nivel de paso y de trayectoria, permitiendo una evaluación detallada de trazas de razonamiento alineadas con la lógica financiera. Aplicamos Fin-PRM en configuraciones de aprendizaje de recompensas tanto fuera de línea como en línea, respaldando tres aplicaciones clave: (i) seleccionar trayectorias de razonamiento de alta calidad para ajustes supervisados basados en destilación, (ii) proporcionar recompensas densas a nivel de proceso para el aprendizaje por refuerzo, y (iii) guiar inferencias Best-of-N informadas por recompensas durante la fase de prueba. Los resultados experimentales en benchmarks de razonamiento financiero, como CFLUE y FinQA, demuestran que Fin-PRM supera consistentemente a los PRMs de propósito general y a líneas base sólidas del dominio en la calidad de selección de trayectorias. Los modelos entrenados con Fin-PRM muestran mejoras sustanciales respecto a las líneas base, con ganancias del 12.9% en aprendizaje supervisado, 5.2% en aprendizaje por refuerzo y 5.1% en el rendimiento durante la prueba. Estos hallazgos resaltan el valor de los modelos de recompensa especializados en dominios para alinear los LLMs con el razonamiento financiero a nivel experto. Los recursos de nuestro proyecto estarán disponibles en https://github.com/aliyun/qwen-dianjin.
English
Process Reward Models (PRMs) have emerged as a promising framework for
supervising intermediate reasoning in large language models (LLMs), yet
existing PRMs are primarily trained on general or Science, Technology,
Engineering, and Mathematics (STEM) domains and fall short in domain-specific
contexts such as finance, where reasoning is more structured, symbolic, and
sensitive to factual and regulatory correctness. We introduce Fin-PRM,
a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate
reasoning steps in financial tasks. Fin-PRM integrates step-level and
trajectory-level reward supervision, enabling fine-grained evaluation of
reasoning traces aligned with financial logic. We apply Fin-PRM in both offline
and online reward learning settings, supporting three key applications: (i)
selecting high-quality reasoning trajectories for distillation-based supervised
fine-tuning, (ii) providing dense process-level rewards for reinforcement
learning, and (iii) guiding reward-informed Best-of-N inference at test time.
Experimental results on financial reasoning benchmarks, including CFLUE and
FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs
and strong domain baselines in trajectory selection quality. Downstream models
trained with Fin-PRM yield substantial improvements with baselines, with gains
of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in
test-time performance. These findings highlight the value of domain-specialized
reward modeling for aligning LLMs with expert-level financial reasoning. Our
project resources will be available at https://github.com/aliyun/qwen-dianjin.