ChatPaper.aiChatPaper

DianJin-R1: 대규모 언어 모델의 금융 추론 능력 평가 및 향상

DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

April 22, 2025
저자: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI

초록

효과적인 추론은 금융 도메인에서 대규모 언어 모델(LLMs)의 핵심 과제로 남아 있습니다. 이 도메인에서는 도메인 특화 지식, 정확한 수치 계산, 그리고 엄격한 규정 준수가 종종 요구됩니다. 우리는 이러한 과제를 해결하기 위해 추론 강화 감독과 강화 학습을 통해 설계된 DianJin-R1 프레임워크를 제안합니다. 우리의 접근 방식의 핵심은 CFLUE, FinQA, 그리고 독자적인 규정 준수 코퍼스(Chinese Compliance Check, CCC)로부터 구성된 고품질 데이터셋인 DianJin-R1-Data입니다. 이 데이터셋은 다양한 금융 추론 시나리오와 검증된 주석을 결합합니다. 우리의 모델인 DianJin-R1-7B와 DianJin-R1-32B는 Qwen2.5-7B-Instruct와 Qwen2.5-32B-Instruct로부터 미세 조정되었으며, 추론 단계와 최종 답변을 모두 생성하는 구조화된 형식을 사용합니다. 추론 품질을 더욱 개선하기 위해, 우리는 구조화된 출력을 장려하는 하나의 보상 신호와 답변 정확성을 보상하는 또 다른 신호를 통합한 강화 학습 방법인 Group Relative Policy Optimization(GRPO)을 적용합니다. 우리는 모델을 다섯 가지 벤치마크에서 평가합니다: 세 가지 금융 데이터셋(CFLUE, FinQA, CCC)과 두 가지 일반 추론 벤치마크(MATH-500, GPQA-Diamond). 실험 결과는 DianJin-R1 모델이 특히 복잡한 금융 작업에서 비추론 대응 모델을 지속적으로 능가함을 보여줍니다. 더욱이, 실제 CCC 데이터셋에서 우리의 단일 호출 추론 모델은 훨씬 더 많은 계산 비용을 요구하는 다중 에이전트 시스템의 성능을 따라잡거나 심지어 능가합니다. 이러한 결과는 DianJin-R1이 구조화된 감독과 보상 정렬 학습을 통해 금융 추론을 강화하는 데 효과적임을 보여주며, 실제 응용 프로그램을 위한 확장 가능하고 실용적인 솔루션을 제공합니다.
English
Effective reasoning remains a core challenge for large language models (LLMs) in the financial domain, where tasks often require domain-specific knowledge, precise numerical calculations, and strict adherence to compliance rules. We propose DianJin-R1, a reasoning-enhanced framework designed to address these challenges through reasoning-augmented supervision and reinforcement learning. Central to our approach is DianJin-R1-Data, a high-quality dataset constructed from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance Check, CCC), combining diverse financial reasoning scenarios with verified annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that generates both reasoning steps and final answers. To further refine reasoning quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement learning method that incorporates dual reward signals: one encouraging structured outputs and another rewarding answer correctness. We evaluate our models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental results show that DianJin-R1 models consistently outperform their non-reasoning counterparts, especially on complex financial tasks. Moreover, on the real-world CCC dataset, our single-call reasoning models match or even surpass the performance of multi-agent systems that require significantly more computational cost. These findings demonstrate the effectiveness of DianJin-R1 in enhancing financial reasoning through structured supervision and reward-aligned learning, offering a scalable and practical solution for real-world applications.

Summary

AI-Generated Summary

PDF92April 28, 2025