Agentar-Fin-R1: 도메인 전문성, 훈련 효율성, 고급 추론을 통한 금융 지능 강화
Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning
July 22, 2025
저자: Yanjun Zheng, Xiyang Du, Longfei Liao, Xiaoke Zhao, Zhaowen Zhou, Jingze Song, Bo Zhang, Jiawei Liu, Xiang Qi, Zhe Li, Zhiqiang Zhang, Wei Wang, Peng Zhang
cs.AI
초록
대형 언어 모델(LLMs)은 금융 애플리케이션에서 상당한 잠재력을 보여주지만, 기존 모델들은 정교한 추론 능력, 엄격한 신뢰성 기준, 그리고 도메인 특화 요구사항에 효율적으로 적응해야 하는 시나리오에서 종종 한계를 드러냅니다. 우리는 Qwen3 기반 모델을 기반으로 특별히 설계된 Agentar-Fin-R1 시리즈의 금융 대형 언어 모델(8B 및 32B 파라미터)을 소개합니다. 이 모델은 금융 애플리케이션을 위한 추론 능력, 신뢰성, 그리고 도메인 특화를 강화하기 위해 개발되었습니다. 우리의 최적화 접근법은 고품질의 체계적인 금융 작업 라벨 시스템과 포괄적인 다층 신뢰성 보장 프레임워크를 통합합니다. 이 프레임워크는 고품질 신뢰 가능한 지식 엔지니어링, 다중 에이전트 신뢰 가능한 데이터 합성, 그리고 엄격한 데이터 검증 거버넌스를 포함합니다. 라벨 기반 자동 난이도 인식 최적화, 2단계 학습 파이프라인, 그리고 동적 속성 시스템을 통해 우리는 학습 효율성을 크게 개선했습니다. 우리의 모델은 Fineva, FinEval, FinanceIQ와 같은 주류 금융 벤치마크뿐만 아니라 MATH-500 및 GPQA-diamond와 같은 일반 추론 데이터셋에서도 포괄적으로 평가되었습니다. 실제 배포 능력을 철저히 평가하기 위해, 우리는 에이전트 수준의 금융 추론 및 규정 준수 검증에 초점을 맞춘 Finova 평가 벤치마크를 혁신적으로 제안합니다. 실험 결과는 Agentar-Fin-R1이 금융 작업에서 최첨단 성능을 달성할 뿐만 아니라 탁월한 일반 추론 능력을 보여주어, 고위험 금융 애플리케이션을 위한 신뢰할 수 있는 솔루션으로서의 효과를 입증합니다. Finova 벤치는 https://github.com/antgroup/Finova에서 확인할 수 있습니다.
English
Large Language Models (LLMs) exhibit considerable promise in financial
applications; however, prevailing models frequently demonstrate limitations
when confronted with scenarios that necessitate sophisticated reasoning
capabilities, stringent trustworthiness criteria, and efficient adaptation to
domain-specific requirements. We introduce the Agentar-Fin-R1 series of
financial large language models (8B and 32B parameters), specifically
engineered based on the Qwen3 foundation model to enhance reasoning
capabilities, reliability, and domain specialization for financial
applications. Our optimization approach integrates a high-quality, systematic
financial task label system with a comprehensive multi-layered trustworthiness
assurance framework. This framework encompasses high-quality trustworthy
knowledge engineering, multi-agent trustworthy data synthesis, and rigorous
data validation governance. Through label-guided automated difficulty-aware
optimization, tow-stage training pipeline, and dynamic attribution systems, we
achieve substantial improvements in training efficiency. Our models undergo
comprehensive evaluation on mainstream financial benchmarks including Fineva,
FinEval, and FinanceIQ, as well as general reasoning datasets such as MATH-500
and GPQA-diamond. To thoroughly assess real-world deployment capabilities, we
innovatively propose the Finova evaluation benchmark, which focuses on
agent-level financial reasoning and compliance verification. Experimental
results demonstrate that Agentar-Fin-R1 not only achieves state-of-the-art
performance on financial tasks but also exhibits exceptional general reasoning
capabilities, validating its effectiveness as a trustworthy solution for
high-stakes financial applications. The Finova bench is available at
https://github.com/antgroup/Finova.