Agentar-Fin-R1: Potenziamento dell'Intelligenza Finanziaria attraverso Competenza di Dominio, Efficienza di Addestramento e Ragionamento Avanzato
Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning
July 22, 2025
Autori: Yanjun Zheng, Xiyang Du, Longfei Liao, Xiaoke Zhao, Zhaowen Zhou, Jingze Song, Bo Zhang, Jiawei Liu, Xiang Qi, Zhe Li, Zhiqiang Zhang, Wei Wang, Peng Zhang
cs.AI
Abstract
I Large Language Model (LLM) dimostrano un notevole potenziale nelle applicazioni finanziarie; tuttavia, i modelli prevalenti mostrano spesso limitazioni quando si trovano ad affrontare scenari che richiedono capacità di ragionamento sofisticate, criteri rigorosi di affidabilità e un adattamento efficiente a requisiti specifici del dominio. Presentiamo la serie Agentar-Fin-R1 di grandi modelli linguistici finanziari (8B e 32B parametri), progettati specificamente sulla base del modello di base Qwen3 per migliorare le capacità di ragionamento, l'affidabilità e la specializzazione nel dominio delle applicazioni finanziarie. Il nostro approccio di ottimizzazione integra un sistema di etichettatura sistematico e di alta qualità per i task finanziari con un quadro completo di garanzia dell'affidabilità a più livelli. Questo quadro include l'ingegneria della conoscenza affidabile di alta qualità, la sintesi di dati affidabili multi-agente e una rigorosa governance della validazione dei dati. Attraverso l'ottimizzazione automatizzata guidata dalle etichette con consapevolezza della difficoltà, una pipeline di addestramento in due fasi e sistemi di attribuzione dinamica, otteniamo miglioramenti significativi nell'efficienza dell'addestramento. I nostri modelli vengono valutati in modo completo su benchmark finanziari mainstream come Fineva, FinEval e FinanceIQ, nonché su dataset di ragionamento generale come MATH-500 e GPQA-diamond. Per valutare approfonditamente le capacità di implementazione nel mondo reale, proponiamo in modo innovativo il benchmark di valutazione Finova, che si concentra sul ragionamento finanziario a livello di agente e sulla verifica della conformità. I risultati sperimentali dimostrano che Agentar-Fin-R1 non solo raggiunge prestazioni all'avanguardia nei task finanziari, ma mostra anche capacità eccezionali di ragionamento generale, convalidando la sua efficacia come soluzione affidabile per applicazioni finanziarie ad alto rischio. Il benchmark Finova è disponibile all'indirizzo https://github.com/antgroup/Finova.
English
Large Language Models (LLMs) exhibit considerable promise in financial
applications; however, prevailing models frequently demonstrate limitations
when confronted with scenarios that necessitate sophisticated reasoning
capabilities, stringent trustworthiness criteria, and efficient adaptation to
domain-specific requirements. We introduce the Agentar-Fin-R1 series of
financial large language models (8B and 32B parameters), specifically
engineered based on the Qwen3 foundation model to enhance reasoning
capabilities, reliability, and domain specialization for financial
applications. Our optimization approach integrates a high-quality, systematic
financial task label system with a comprehensive multi-layered trustworthiness
assurance framework. This framework encompasses high-quality trustworthy
knowledge engineering, multi-agent trustworthy data synthesis, and rigorous
data validation governance. Through label-guided automated difficulty-aware
optimization, tow-stage training pipeline, and dynamic attribution systems, we
achieve substantial improvements in training efficiency. Our models undergo
comprehensive evaluation on mainstream financial benchmarks including Fineva,
FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500
and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we
innovatively propose the Finova evaluation benchmark, which focuses on
agent-level financial reasoning and compliance verification. Experimental
results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art
performance on financial tasks but also exhibits exceptional general reasoning
capabilities, validating its effectiveness as a trustworthy solution for
high-stakes financial applications. The Finova bench is available at
https://github.com/antgroup/Finova.