DianJin-R1: Avaliação e Aprimoramento do Raciocínio Financeiro em Modelos de Linguagem de Grande Escala
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
Autores: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Resumo
O raciocínio eficaz continua sendo um desafio central para os grandes modelos de linguagem (LLMs) no domínio financeiro, onde as tarefas frequentemente exigem conhecimento específico do setor, cálculos numéricos precisos e estrita aderência às regras de conformidade. Propomos o DianJin-R1, um framework aprimorado para raciocínio projetado para enfrentar esses desafios por meio de supervisão aumentada por raciocínio e aprendizado por reforço. Central à nossa abordagem é o DianJin-R1-Data, um conjunto de dados de alta qualidade construído a partir do CFLUE, FinQA e um corpus proprietário de conformidade (Chinese Compliance Check, CCC), combinando diversos cenários de raciocínio financeiro com anotações verificadas. Nossos modelos, DianJin-R1-7B e DianJin-R1-32B, são ajustados a partir do Qwen2.5-7B-Instruct e Qwen2.5-32B-Instruct usando um formato estruturado que gera tanto etapas de raciocínio quanto respostas finais. Para refinar ainda mais a qualidade do raciocínio, aplicamos o Group Relative Policy Optimization (GRPO), um método de aprendizado por reforço que incorpora sinais de recompensa dupla: um que incentiva saídas estruturadas e outro que recompensa a correção das respostas. Avaliamos nossos modelos em cinco benchmarks: três conjuntos de dados financeiros (CFLUE, FinQA e CCC) e dois benchmarks de raciocínio geral (MATH-500 e GPQA-Diamond). Os resultados experimentais mostram que os modelos DianJin-R1 consistentemente superam suas contrapartes sem aprimoramento de raciocínio, especialmente em tarefas financeiras complexas. Além disso, no conjunto de dados real CCC, nossos modelos de raciocínio de chamada única igualam ou até superam o desempenho de sistemas multiagentes que exigem um custo computacional significativamente maior. Esses achados demonstram a eficácia do DianJin-R1 em aprimorar o raciocínio financeiro por meio de supervisão estruturada e aprendizado alinhado a recompensas, oferecendo uma solução escalável e prática para aplicações do mundo real.
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary