ChatPaper.aiChatPaper

Fin-PRM: Um Modelo de Recompensa de Processo Especializado em Domínio para Raciocínio Financeiro em Modelos de Linguagem de Grande Escala

Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

August 21, 2025
Autores: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI

Resumo

Os Modelos de Recompensa de Processo (PRMs) surgiram como uma estrutura promissora para supervisionar o raciocínio intermediário em grandes modelos de linguagem (LLMs). No entanto, os PRMs existentes são principalmente treinados em domínios gerais ou de Ciência, Tecnologia, Engenharia e Matemática (STEM) e ficam aquém em contextos específicos de domínio, como finanças, onde o raciocínio é mais estruturado, simbólico e sensível à correção factual e regulatória. Apresentamos o Fin-PRM, um PRM especializado em domínio e consciente de trajetória, projetado para avaliar etapas intermediárias de raciocínio em tarefas financeiras. O Fin-PRM integra supervisão de recompensa em nível de etapa e de trajetória, permitindo uma avaliação refinada de traços de raciocínio alinhados com a lógica financeira. Aplicamos o Fin-PRM em configurações de aprendizado de recompensa offline e online, suportando três aplicações principais: (i) seleção de trajetórias de raciocínio de alta qualidade para ajuste fino supervisionado baseado em destilação, (ii) fornecimento de recompensas densas em nível de processo para aprendizado por reforço, e (iii) orientação de inferência Best-of-N informada por recompensa no momento do teste. Resultados experimentais em benchmarks de raciocínio financeiro, incluindo CFLUE e FinQA, demonstram que o Fin-PRM supera consistentemente PRMs de propósito geral e fortes baselines de domínio na qualidade de seleção de trajetória. Modelos subsequentes treinados com o Fin-PRM apresentam melhorias substanciais em relação às baselines, com ganhos de 12,9% em aprendizado supervisionado, 5,2% em aprendizado por reforço e 5,1% no desempenho no momento do teste. Esses achados destacam o valor da modelagem de recompensa especializada em domínio para alinhar LLMs com raciocínio financeiro de nível especialista. Nossos recursos do projeto estarão disponíveis em https://github.com/aliyun/qwen-dianjin.
English
Process Reward Models (PRMs) have emerged as a promising framework for supervising intermediate reasoning in large language models (LLMs), yet existing PRMs are primarily trained on general or Science, Technology, Engineering, and Mathematics (STEM) domains and fall short in domain-specific contexts such as finance, where reasoning is more structured, symbolic, and sensitive to factual and regulatory correctness. We introduce Fin-PRM, a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate reasoning steps in financial tasks. Fin-PRM integrates step-level and trajectory-level reward supervision, enabling fine-grained evaluation of reasoning traces aligned with financial logic. We apply Fin-PRM in both offline and online reward learning settings, supporting three key applications: (i) selecting high-quality reasoning trajectories for distillation-based supervised fine-tuning, (ii) providing dense process-level rewards for reinforcement learning, and (iii) guiding reward-informed Best-of-N inference at test time. Experimental results on financial reasoning benchmarks, including CFLUE and FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs and strong domain baselines in trajectory selection quality. Downstream models trained with Fin-PRM yield substantial improvements with baselines, with gains of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in test-time performance. These findings highlight the value of domain-specialized reward modeling for aligning LLMs with expert-level financial reasoning. Our project resources will be available at https://github.com/aliyun/qwen-dianjin.
PDF42August 22, 2025