Fin-PRM: Специализированная процессная модель вознаграждения для финансового анализа в больших языковых моделях
Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models
August 21, 2025
Авторы: Yuanchen Zhou, Shuo Jiang, Jie Zhu, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Аннотация
Модели вознаграждения за процесс (Process Reward Models, PRMs) стали перспективной основой для контроля промежуточных рассуждений в больших языковых моделях (LLMs). Однако существующие PRMs в основном обучаются на общих данных или в областях науки, технологий, инженерии и математики (STEM) и оказываются недостаточно эффективными в узкоспециализированных контекстах, таких как финансы, где рассуждения более структурированы, символичны и чувствительны к фактической и регуляторной точности. Мы представляем Fin-PRM — специализированную, учитывающую траекторию PRM, разработанную для оценки промежуточных шагов рассуждений в финансовых задачах. Fin-PRM интегрирует контроль вознаграждения на уровне шагов и траекторий, обеспечивая детальную оценку цепочек рассуждений, соответствующих финансовой логике. Мы применяем Fin-PRM как в оффлайн-, так и в онлайн-режимах обучения с подкреплением, поддерживая три ключевых приложения: (i) выбор высококачественных траекторий рассуждений для тонкой настройки с использованием дистилляции, (ii) предоставление плотных вознаграждений на уровне процесса для обучения с подкреплением и (iii) управление Best-of-N выводом с учетом вознаграждения на этапе тестирования. Экспериментальные результаты на финансовых бенчмарках, включая CFLUE и FinQA, показывают, что Fin-PRM стабильно превосходит универсальные PRMs и сильные базовые модели в качестве выбора траекторий. Модели, обученные с использованием Fin-PRM, демонстрируют значительные улучшения по сравнению с базовыми показателями: прирост составляет 12,9% в обучении с учителем, 5,2% в обучении с подкреплением и 5,1% в производительности на этапе тестирования. Эти результаты подчеркивают ценность специализированного моделирования вознаграждения для согласования LLMs с экспертно-уровневыми финансовыми рассуждениями. Наши проектные ресурсы будут доступны по адресу https://github.com/aliyun/qwen-dianjin.
English
Process Reward Models (PRMs) have emerged as a promising framework for
supervising intermediate reasoning in large language models (LLMs), yet
existing PRMs are primarily trained on general or Science, Technology,
Engineering, and Mathematics (STEM) domains and fall short in domain-specific
contexts such as finance, where reasoning is more structured, symbolic, and
sensitive to factual and regulatory correctness. We introduce Fin-PRM,
a domain-specialized, trajectory-aware PRM tailored to evaluate intermediate
reasoning steps in financial tasks. Fin-PRM integrates step-level and
trajectory-level reward supervision, enabling fine-grained evaluation of
reasoning traces aligned with financial logic. We apply Fin-PRM in both offline
and online reward learning settings, supporting three key applications: (i)
selecting high-quality reasoning trajectories for distillation-based supervised
fine-tuning, (ii) providing dense process-level rewards for reinforcement
learning, and (iii) guiding reward-informed Best-of-N inference at test time.
Experimental results on financial reasoning benchmarks, including CFLUE and
FinQA, demonstrate that Fin-PRM consistently outperforms general-purpose PRMs
and strong domain baselines in trajectory selection quality. Downstream models
trained with Fin-PRM yield substantial improvements with baselines, with gains
of 12.9\% in supervised learning, 5.2\% in reinforcement learning, and 5.1\% in
test-time performance. These findings highlight the value of domain-specialized
reward modeling for aligning LLMs with expert-level financial reasoning. Our
project resources will be available at https://github.com/aliyun/qwen-dianjin.