DianJin-R1: Evaluación y mejora del razonamiento financiero en modelos de lenguaje de gran escala
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models
April 22, 2025
Autores: Jie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang
cs.AI
Resumen
El razonamiento efectivo sigue siendo un desafío fundamental para los modelos de lenguaje de gran escala (LLMs) en el dominio financiero, donde las tareas a menudo requieren conocimiento específico del área, cálculos numéricos precisos y una estricta adherencia a las normas de cumplimiento. Proponemos DianJin-R1, un marco potenciado por razonamiento diseñado para abordar estos desafíos mediante supervisión aumentada con razonamiento y aprendizaje por refuerzo. El núcleo de nuestro enfoque es DianJin-R1-Data, un conjunto de datos de alta calidad construido a partir de CFLUE, FinQA y un corpus propietario de cumplimiento (Chinese Compliance Check, CCC), que combina diversos escenarios de razonamiento financiero con anotaciones verificadas. Nuestros modelos, DianJin-R1-7B y DianJin-R1-32B, se ajustan a partir de Qwen2.5-7B-Instruct y Qwen2.5-32B-Instruct utilizando un formato estructurado que genera tanto pasos de razonamiento como respuestas finales. Para refinar aún más la calidad del razonamiento, aplicamos la Optimización de Política Relativa en Grupo (GRPO), un método de aprendizaje por refuerzo que incorpora señales de recompensa duales: una que fomenta salidas estructuradas y otra que premia la corrección de las respuestas. Evaluamos nuestros modelos en cinco benchmarks: tres conjuntos de datos financieros (CFLUE, FinQA y CCC) y dos benchmarks de razonamiento general (MATH-500 y GPQA-Diamond). Los resultados experimentales muestran que los modelos DianJin-R1 superan consistentemente a sus contrapartes sin razonamiento, especialmente en tareas financieras complejas. Además, en el conjunto de datos del mundo real CCC, nuestros modelos de razonamiento de una sola llamada igualan o incluso superan el rendimiento de sistemas multiagente que requieren un costo computacional significativamente mayor. Estos hallazgos demuestran la efectividad de DianJin-R1 para mejorar el razonamiento financiero mediante supervisión estructurada y aprendizaje alineado con recompensas, ofreciendo una solución escalable y práctica para aplicaciones del mundo real.
English
Effective reasoning remains a core challenge for large language models (LLMs)
in the financial domain, where tasks often require domain-specific knowledge,
precise numerical calculations, and strict adherence to compliance rules. We
propose DianJin-R1, a reasoning-enhanced framework designed to address these
challenges through reasoning-augmented supervision and reinforcement learning.
Central to our approach is DianJin-R1-Data, a high-quality dataset constructed
from CFLUE, FinQA, and a proprietary compliance corpus (Chinese Compliance
Check, CCC), combining diverse financial reasoning scenarios with verified
annotations. Our models, DianJin-R1-7B and DianJin-R1-32B, are fine-tuned from
Qwen2.5-7B-Instruct and Qwen2.5-32B-Instruct using a structured format that
generates both reasoning steps and final answers. To further refine reasoning
quality, we apply Group Relative Policy Optimization (GRPO), a reinforcement
learning method that incorporates dual reward signals: one encouraging
structured outputs and another rewarding answer correctness. We evaluate our
models on five benchmarks: three financial datasets (CFLUE, FinQA, and CCC) and
two general reasoning benchmarks (MATH-500 and GPQA-Diamond). Experimental
results show that DianJin-R1 models consistently outperform their non-reasoning
counterparts, especially on complex financial tasks. Moreover, on the
real-world CCC dataset, our single-call reasoning models match or even surpass
the performance of multi-agent systems that require significantly more
computational cost. These findings demonstrate the effectiveness of DianJin-R1
in enhancing financial reasoning through structured supervision and
reward-aligned learning, offering a scalable and practical solution for
real-world applications.Summary
AI-Generated Summary