DianJin-R1: Оценка и улучшение финансового мышления в крупных языковых моделях
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
Авторы: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Аннотация
Эффективное рассуждение остается ключевой задачей для больших языковых моделей (LLMs) в финансовой сфере, где задачи часто требуют специализированных знаний, точных численных расчетов и строгого соблюдения нормативных правил. Мы представляем DianJin-R1, фреймворк с усиленным рассуждением, разработанный для решения этих задач с помощью надзора, дополненного рассуждениями, и обучения с подкреплением. Основой нашего подхода является DianJin-R1-Data, высококачественный набор данных, созданный на основе CFLUE, FinQA и проприетарного корпуса по соблюдению нормативных требований (Chinese Compliance Check, CCC), объединяющий разнообразные сценарии финансового рассуждения с проверенными аннотациями. Наши модели, DianJin-R1-7B и DianJin-R1-32B, доработаны на основе Qwen2.5-7B-Instruct и Qwen2.5-32B-Instruct с использованием структурированного формата, который генерирует как шаги рассуждения, так и итоговые ответы. Для дальнейшего улучшения качества рассуждений мы применяем Group Relative Policy Optimization (GRPO), метод обучения с подкреплением, который включает двойные сигналы вознаграждения: один поощряет структурированные выходные данные, а другой вознаграждает правильность ответов. Мы оцениваем наши модели на пяти тестовых наборах: трех финансовых (CFLUE, FinQA и CCC) и двух общих для рассуждений (MATH-500 и GPQA-Diamond). Экспериментальные результаты показывают, что модели DianJin-R1 стабильно превосходят свои аналоги без рассуждений, особенно на сложных финансовых задачах. Более того, на реальном наборе данных CCC наши модели с одношаговым рассуждением соответствуют или даже превосходят производительность мультиагентных систем, требующих значительно больших вычислительных затрат. Эти результаты демонстрируют эффективность DianJin-R1 в улучшении финансового рассуждения через структурированный надзор и обучение, согласованное с вознаграждением, предлагая масштабируемое и практичное решение для реальных приложений.
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary