Agentar-Fin-R1: Aprimorando a Inteligência Financeira por meio de Expertise de Domínio, Eficiência de Treinamento e Raciocínio Avançado
Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning
July 22, 2025
Autores: Yanjun Zheng, Xiyang Du, Longfei Liao, Xiaoke Zhao, Zhaowen Zhou, Jingze Song, Bo Zhang, Jiawei Liu, Xiang Qi, Zhe Li, Zhiqiang Zhang, Wei Wang, Peng Zhang
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram um potencial considerável em aplicações financeiras; no entanto, os modelos predominantes frequentemente apresentam limitações ao enfrentar cenários que exigem capacidades de raciocínio sofisticadas, critérios rigorosos de confiabilidade e adaptação eficiente a requisitos específicos do domínio. Introduzimos a série Agentar-Fin-R1 de modelos de linguagem de grande escala financeira (8B e 32B parâmetros), especificamente projetados com base no modelo base Qwen3 para aprimorar as capacidades de raciocínio, confiabilidade e especialização em domínios financeiros. Nossa abordagem de otimização integra um sistema de rotulação de tarefas financeiras de alta qualidade e sistemático com uma estrutura abrangente de garantia de confiabilidade em múltiplas camadas. Essa estrutura engloba engenharia de conhecimento confiável de alta qualidade, síntese de dados confiáveis por múltiplos agentes e governança rigorosa de validação de dados. Por meio de otimização automatizada guiada por rótulos com consciência de dificuldade, pipeline de treinamento em duas etapas e sistemas de atribuição dinâmica, alcançamos melhorias substanciais na eficiência do treinamento. Nossos modelos passam por avaliação abrangente em benchmarks financeiros principais, incluindo Fineva, FinEval e FinanceIQ, bem como em conjuntos de dados de raciocínio geral, como MATH-500 e GPQA-diamond. Para avaliar minuciosamente as capacidades de implantação no mundo real, propomos inovadoramente o benchmark de avaliação Finova, que se concentra no raciocínio financeiro em nível de agente e na verificação de conformidade. Os resultados experimentais demonstram que o Agentar-Fin-R1 não apenas alcança desempenho de ponta em tarefas financeiras, mas também exibe capacidades excepcionais de raciocínio geral, validando sua eficácia como uma solução confiável para aplicações financeiras de alto risco. O benchmark Finova está disponível em https://github.com/antgroup/Finova.
English
Large Language Models (LLMs) exhibit considerable promise in financial
applications; however, prevailing models frequently demonstrate limitations
when confronted with scenarios that necessitate sophisticated reasoning
capabilities, stringent trustworthiness criteria, and efficient adaptation to
domain-specific requirements. We introduce the Agentar-Fin-R1 series of
financial large language models (8B and 32B parameters), specifically
engineered based on the Qwen3 foundation model to enhance reasoning
capabilities, reliability, and domain specialization for financial
applications. Our optimization approach integrates a high-quality, systematic
financial task label system with a comprehensive multi-layered trustworthiness
assurance framework. This framework encompasses high-quality trustworthy
knowledge engineering, multi-agent trustworthy data synthesis, and rigorous
data validation governance. Through label-guided automated difficulty-aware
optimization, tow-stage training pipeline, and dynamic attribution systems, we
achieve substantial improvements in training efficiency. Our models undergo
comprehensive evaluation on mainstream financial benchmarks including Fineva,
FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500
and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we
innovatively propose the Finova evaluation benchmark, which focuses on
agent-level financial reasoning and compliance verification. Experimental
results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art
performance on financial tasks but also exhibits exceptional general reasoning
capabilities, validating its effectiveness as a trustworthy solution for
high-stakes financial applications. The Finova bench is available at
https://github.com/antgroup/Finova.