ChatPaper.aiChatPaper

DianJin-R1: Valutazione e potenziamento del ragionamento finanziario nei modelli linguistici di grandi dimensioni

DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

April 22, 2025
Autori: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI

Abstract

Il ragionamento efficace rimane una sfida fondamentale per i grandi modelli linguistici (LLMs) nel dominio finanziario, dove i compiti spesso richiedono conoscenze specifiche del settore, calcoli numerici precisi e una rigorosa aderenza alle norme di conformità. Proponiamo DianJin-R1, un framework potenziato per il ragionamento progettato per affrontare queste sfide attraverso una supervisione arricchita dal ragionamento e l'apprendimento per rinforzo. Al centro del nostro approccio c'è DianJin-R1-Data, un dataset di alta qualità costruito da CFLUE, FinQA e un corpus proprietario di conformità (Chinese Compliance Check, CCC), che combina scenari di ragionamento finanziario diversificati con annotazioni verificate. I nostri modelli, DianJin-R1-7B e DianJin-R1-32B, sono affinati a partire da Qwen2.5-7B-Instruct e Qwen2.5-32B-Instruct utilizzando un formato strutturato che genera sia i passaggi di ragionamento che le risposte finali. Per perfezionare ulteriormente la qualità del ragionamento, applichiamo l'ottimizzazione relativa delle politiche di gruppo (Group Relative Policy Optimization, GRPO), un metodo di apprendimento per rinforzo che incorpora doppi segnali di ricompensa: uno che incoraggia output strutturati e un altro che premia la correttezza delle risposte. Valutiamo i nostri modelli su cinque benchmark: tre dataset finanziari (CFLUE, FinQA e CCC) e due benchmark di ragionamento generale (MATH-500 e GPQA-Diamond). I risultati sperimentali mostrano che i modelli DianJin-R1 superano costantemente le loro controparti non orientate al ragionamento, specialmente su compiti finanziari complessi. Inoltre, sul dataset reale CCC, i nostri modelli di ragionamento a singola chiamata eguagliano o addirittura superano le prestazioni di sistemi multi-agente che richiedono costi computazionali significativamente maggiori. Questi risultati dimostrano l'efficacia di DianJin-R1 nel potenziare il ragionamento finanziario attraverso una supervisione strutturata e un apprendimento allineato alle ricompense, offrendo una soluzione scalabile e pratica per applicazioni nel mondo reale.
English
Effective reasoning remains a core challenge for large language models (LLMs) in the financial domain, where tasks often require domain-specific knowledge, precise numerical calculations, and strict adherence to compliance rules. We propose DianJin-R1, a reasoning-enhanced framework designed to address these challenges through reasoning-augmented supervision and reinforcement learning. Central to our approach is DianJin-R1-Data, a high-quality dataset constructed from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance Check, CCC), combining diverse financial reasoning scenarios with verified annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that generates both reasoning steps and final answers. To further refine reasoning quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement learning method that incorporates dual reward signals: one encouraging structured outputs and another rewarding answer correctness. We evaluate our models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental results show that DianJin-R1 models consistently outperform their non-reasoning counterparts, especially on complex financial tasks. Moreover, on the real-world CCC dataset, our single-call reasoning models match or even surpass the performance of multi-agent systems that require significantly more computational cost. These findings demonstrate the effectiveness of DianJin-R1 in enhancing financial reasoning through structured supervision and reward-aligned learning, offering a scalable and practical solution for real-world applications.

Summary

AI-Generated Summary

PDF92April 28, 2025