Agentar-Fin-R1: Verbesserung der finanziellen Intelligenz durch Domänenexpertise, Trainings effizienz und fortgeschrittenes Reasoning

papers.abstract

Große Sprachmodelle (LLMs) zeigen beträchtliches Potenzial in finanziellen Anwendungen; jedoch weisen vorherrschende Modelle häufig Einschränkungen auf, wenn sie mit Szenarien konfrontiert werden, die anspruchsvolle Denkfähigkeiten, strenge Vertrauenswürdigkeitskriterien und effiziente Anpassung an domänenspezifische Anforderungen erfordern. Wir stellen die Agentar-Fin-R1-Serie von finanziellen großen Sprachmodellen (8B und 32B Parameter) vor, die speziell auf der Qwen3-Basismodellarchitektur entwickelt wurden, um die Denkfähigkeiten, Zuverlässigkeit und Domänenspezialisierung für finanzielle Anwendungen zu verbessern. Unser Optimierungsansatz integriert ein hochwertiges, systematisches Finanzaufgaben-Labelsystem mit einem umfassenden mehrschichtigen Vertrauenswürdigkeits-Sicherungsrahmen. Dieser Rahmen umfasst hochwertige vertrauenswürdige Wissensverarbeitung, Multi-Agenten-vertrauenswürdige Datensynthese und strenge Datenvalidierungs-Governance. Durch labelgesteuerte, automatisierte schwierigkeitsbewusste Optimierung, eine zweistufige Trainingspipeline und dynamische Attributionssysteme erreichen wir erhebliche Verbesserungen in der Trainings effizienz. Unsere Modelle werden umfassend auf gängigen finanziellen Benchmarks wie Fineva, FinEval und FinanceIQ sowie allgemeinen Denkdatensätzen wie MATH-500 und GPQA-diamond evaluiert. Um die Fähigkeiten zur realen Einsatzfähigkeit gründlich zu bewerten, schlagen wir innovativ den Finova-Evaluationsbenchmark vor, der sich auf Agentenebene finanzieller Denkfähigkeiten und Compliance-Überprüfung konzentriert. Experimentelle Ergebnisse zeigen, dass Agentar-Fin-R1 nicht nur Spitzenleistungen bei finanziellen Aufgaben erzielt, sondern auch außergewöhnliche allgemeine Denkfähigkeiten aufweist, was seine Wirksamkeit als vertrauenswürdige Lösung für hochriskante finanzielle Anwendungen bestätigt. Der Finova-Bench ist verfügbar unter https://github.com/antgroup/Finova.

English

Large Language Models (LLMs) exhibit considerable promise in financial applications; however, prevailing models frequently demonstrate limitations when confronted with scenarios that necessitate sophisticated reasoning capabilities, stringent trustworthiness criteria, and efficient adaptation to domain-specific requirements. We introduce the Agentar-Fin-R1 series of financial large language models (8B and 32B parameters), specifically engineered based on the Qwen3 foundation model to enhance reasoning capabilities, reliability, and domain specialization for financial applications. Our optimization approach integrates a high-quality, systematic financial task label system with a comprehensive multi-layered trustworthiness assurance framework. This framework encompasses high-quality trustworthy knowledge engineering, multi-agent trustworthy data synthesis, and rigorous data validation governance. Through label-guided automated difficulty-aware optimization, tow-stage training pipeline, and dynamic attribution systems, we achieve substantial improvements in training efficiency. Our models undergo comprehensive evaluation on mainstream financial benchmarks including Fineva, FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500 and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we innovatively propose the Finova evaluation benchmark, which focuses on agent-level financial reasoning and compliance verification. Experimental results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art performance on financial tasks but also exhibits exceptional general reasoning capabilities, validating its effectiveness as a trustworthy solution for high-stakes financial applications. The Finova bench is available at https://github.com/antgroup/Finova.

Agentar-Fin-R1: Verbesserung der finanziellen Intelligenz durch Domänenexpertise, Trainings effizienz und fortgeschrittenes Reasoning

Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning

papers.abstract

Support