DianJin-R1: 대규모 언어 모델의 금융 추론 능력 평가 및 향상
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
저자: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
초록
효과적인 추론은 금융 도메인에서 대규모 언어 모델(LLMs)의 핵심 과제로 남아 있습니다. 이 도메인에서는 도메인 특화 지식, 정확한 수치 계산, 그리고 엄격한 규정 준수가 종종 요구됩니다. 우리는 이러한 과제를 해결하기 위해 추론 강화 감독과 강화 학습을 통해 설계된 DianJin-R1 프레임워크를 제안합니다. 우리의 접근 방식의 핵심은 CFLUE, FinQA, 그리고 독자적인 규정 준수 코퍼스(Chinese Compliance Check, CCC)로부터 구성된 고품질 데이터셋인 DianJin-R1-Data입니다. 이 데이터셋은 다양한 금융 추론 시나리오와 검증된 주석을 결합합니다. 우리의 모델인 DianJin-R1-7B와 DianJin-R1-32B는 Qwen2.5-7B-Instruct와 Qwen2.5-32B-Instruct로부터 미세 조정되었으며, 추론 단계와 최종 답변을 모두 생성하는 구조화된 형식을 사용합니다. 추론 품질을 더욱 개선하기 위해, 우리는 구조화된 출력을 장려하는 하나의 보상 신호와 답변 정확성을 보상하는 또 다른 신호를 통합한 강화 학습 방법인 Group Relative Policy Optimization(GRPO)을 적용합니다. 우리는 모델을 다섯 가지 벤치마크에서 평가합니다: 세 가지 금융 데이터셋(CFLUE, FinQA, CCC)과 두 가지 일반 추론 벤치마크(MATH-500, GPQA-Diamond). 실험 결과는 DianJin-R1 모델이 특히 복잡한 금융 작업에서 비추론 대응 모델을 지속적으로 능가함을 보여줍니다. 더욱이, 실제 CCC 데이터셋에서 우리의 단일 호출 추론 모델은 훨씬 더 많은 계산 비용을 요구하는 다중 에이전트 시스템의 성능을 따라잡거나 심지어 능가합니다. 이러한 결과는 DianJin-R1이 구조화된 감독과 보상 정렬 학습을 통해 금융 추론을 강화하는 데 효과적임을 보여주며, 실제 응용 프로그램을 위한 확장 가능하고 실용적인 솔루션을 제공합니다.
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary