Agentar-Fin-R1: Mejorando la Inteligencia Financiera mediante Experiencia en el Dominio, Eficiencia en el Entrenamiento y Razonamiento Avanzado

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) muestran un considerable potencial en aplicaciones financieras; sin embargo, los modelos predominantes frecuentemente presentan limitaciones al enfrentarse a escenarios que requieren capacidades de razonamiento sofisticadas, criterios estrictos de confiabilidad y una adaptación eficiente a requisitos específicos del dominio. Presentamos la serie Agentar-Fin-R1 de modelos de lenguaje de gran escala financieros (8B y 32B parámetros), específicamente diseñados a partir del modelo base Qwen3 para mejorar las capacidades de razonamiento, confiabilidad y especialización en el dominio financiero. Nuestro enfoque de optimización integra un sistema de etiquetado de tareas financieras de alta calidad y sistemático con un marco integral de garantía de confiabilidad de múltiples capas. Este marco abarca ingeniería de conocimiento confiable de alta calidad, síntesis de datos confiable multiagente y una gobernanza rigurosa de validación de datos. A través de la optimización automática guiada por etiquetas con conciencia de dificultad, una canalización de entrenamiento en dos etapas y sistemas de atribución dinámica, logramos mejoras sustanciales en la eficiencia del entrenamiento. Nuestros modelos son evaluados exhaustivamente en puntos de referencia financieros principales como Fineva, FinEval y FinanceIQ, así como en conjuntos de datos de razonamiento general como MATH-500 y GPQA-diamond. Para evaluar minuciosamente las capacidades de implementación en el mundo real, proponemos de manera innovadora el punto de referencia de evaluación Finova, que se centra en el razonamiento financiero a nivel de agente y la verificación de cumplimiento. Los resultados experimentales demuestran que Agentar-Fin-R1 no solo alcanza un rendimiento de vanguardia en tareas financieras, sino que también exhibe capacidades de razonamiento general excepcionales, validando su eficacia como una solución confiable para aplicaciones financieras de alto riesgo. El punto de referencia Finova está disponible en https://github.com/antgroup/Finova.

English

Large Language Models (LLMs) exhibit considerable promise in financial applications; however, prevailing models frequently demonstrate limitations when confronted with scenarios that necessitate sophisticated reasoning capabilities, stringent trustworthiness criteria, and efficient adaptation to domain-specific requirements. We introduce the Agentar-Fin-R1 series of financial large language models (8B and 32B parameters), specifically engineered based on the Qwen3 foundation model to enhance reasoning capabilities, reliability, and domain specialization for financial applications. Our optimization approach integrates a high-quality, systematic financial task label system with a comprehensive multi-layered trustworthiness assurance framework. This framework encompasses high-quality trustworthy knowledge engineering, multi-agent trustworthy data synthesis, and rigorous data validation governance. Through label-guided automated difficulty-aware optimization, tow-stage training pipeline, and dynamic attribution systems, we achieve substantial improvements in training efficiency. Our models undergo comprehensive evaluation on mainstream financial benchmarks including Fineva, FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500 and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we innovatively propose the Finova evaluation benchmark, which focuses on agent-level financial reasoning and compliance verification. Experimental results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art performance on financial tasks but also exhibits exceptional general reasoning capabilities, validating its effectiveness as a trustworthy solution for high-stakes financial applications. The Finova bench is available at https://github.com/antgroup/Finova.