Agentar-Fin-R1 : Amélioration de l'intelligence financière par l'expertise sectorielle, l'efficacité de l'entraînement et le raisonnement avancé
Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning
July 22, 2025
papers.authors: Yanjun Zheng, Xiyang Du, Longfei Liao, Xiaoke Zhao, Zhaowen Zhou, Jingze Song, Bo Zhang, Jiawei Liu, Xiang Qi, Zhe Li, Zhiqiang Zhang, Wei Wang, Peng Zhang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) montrent un potentiel considérable dans les applications financières ; cependant, les modèles prédominants présentent souvent des limites lorsqu'ils sont confrontés à des scénarios nécessitant des capacités de raisonnement sophistiquées, des critères de fiabilité stricts et une adaptation efficace aux exigences spécifiques au domaine. Nous présentons la série Agentar-Fin-R1 de modèles de langage de grande taille financiers (8B et 32B paramètres), spécifiquement conçus à partir du modèle de base Qwen3 pour améliorer les capacités de raisonnement, la fiabilité et la spécialisation dans le domaine des applications financières. Notre approche d'optimisation intègre un système d'étiquetage de tâches financières de haute qualité et systématique avec un cadre complet d'assurance de fiabilité à plusieurs niveaux. Ce cadre englobe l'ingénierie de connaissances fiables de haute qualité, la synthèse de données fiables par multi-agents et une gouvernance rigoureuse de validation des données. Grâce à l'optimisation automatisée guidée par étiquettes et sensible à la difficulté, à un pipeline d'entraînement en deux étapes et à des systèmes d'attribution dynamique, nous obtenons des améliorations substantielles dans l'efficacité de l'entraînement. Nos modèles sont évalués de manière exhaustive sur des benchmarks financiers grand public tels que Fineva, FinEval et FinanceIQ, ainsi que sur des ensembles de données de raisonnement général comme MATH-500 et GPQA-diamond. Pour évaluer de manière approfondie les capacités de déploiement en situation réelle, nous proposons de manière innovante le benchmark d'évaluation Finova, qui se concentre sur le raisonnement financier au niveau des agents et la vérification de la conformité. Les résultats expérimentaux démontrent qu'Agentar-Fin-R1 non seulement atteint des performances de pointe sur les tâches financières, mais montre également des capacités de raisonnement général exceptionnelles, validant son efficacité en tant que solution fiable pour les applications financières à haut risque. Le benchmark Finova est disponible à l'adresse https://github.com/antgroup/Finova.
English
Large Language Models (LLMs) exhibit considerable promise in financial
applications; however, prevailing models frequently demonstrate limitations
when confronted with scenarios that necessitate sophisticated reasoning
capabilities, stringent trustworthiness criteria, and efficient adaptation to
domain-specific requirements. We introduce the Agentar-Fin-R1 series of
financial large language models (8B and 32B parameters), specifically
engineered based on the Qwen3 foundation model to enhance reasoning
capabilities, reliability, and domain specialization for financial
applications. Our optimization approach integrates a high-quality, systematic
financial task label system with a comprehensive multi-layered trustworthiness
assurance framework. This framework encompasses high-quality trustworthy
knowledge engineering, multi-agent trustworthy data synthesis, and rigorous
data validation governance. Through label-guided automated difficulty-aware
optimization, tow-stage training pipeline, and dynamic attribution systems, we
achieve substantial improvements in training efficiency. Our models undergo
comprehensive evaluation on mainstream financial benchmarks including Fineva,
FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500
and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we
innovatively propose the Finova evaluation benchmark, which focuses on
agent-level financial reasoning and compliance verification. Experimental
results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art
performance on financial tasks but also exhibits exceptional general reasoning
capabilities, validating its effectiveness as a trustworthy solution for
high-stakes financial applications. The Finova bench is available at
https://github.com/antgroup/Finova.