Confucius3-Math: 중국 K-12 수학 학습을 위한 경량 고성능 추론 대형 언어 모델
Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning
June 23, 2025
저자: Lixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan
cs.AI
초록
우리는 140억 개의 파라미터를 가진 오픈소스 대형 언어 모델인 Confucius3-Math를 소개합니다. 이 모델은 (1) 단일 소비자용 GPU에서 효율적으로 실행되며, (2) 다양한 수학적 추론 작업에서 SOTA(State-of-the-Art) 성능을 달성하여 훨씬 더 큰 규모의 모델들을 능가합니다. 특히, AI를 통해 교육과 지식 전파를 강화하려는 우리의 사명의 일환으로, Confucius3-Math는 중국 K-12 학생들과 교육자들을 위한 수학 학습에 특화되어 있습니다. 대규모 강화 학습(RL)을 통한 사후 훈련으로 구축된 이 모델은 국가 교육과정과 일치하며, 저비용으로 중국 K-12 주요 수학 문제를 해결하는 데 탁월한 성능을 보입니다. 본 보고서에서는 우리의 개발 과정, 직면한 도전 과제, 그리고 이를 극복하기 위해 개발한 기술들을 공유합니다. 특히, 우리는 세 가지 기술적 혁신을 소개합니다: Targeted Entropy Regularization, Recent Sample Recovery, 그리고 Policy-Specific Hardness Weighting. 이러한 혁신들은 새로운 엔트로피 정규화, 독창적인 데이터 스케줄링 정책, 그리고 개선된 그룹 상대적 이점 추정기를 포함합니다. 이들은 모두 RL 훈련을 크게 안정화시키고, 데이터 효율성을 향상시키며, 성능을 크게 끌어올립니다. 우리의 작업은 저비용으로 특정 도메인에서 강력한 추론 모델을 구축하는 것이 가능함을 보여줍니다. 우리는 모델과 코드를 https://github.com/netease-youdao/Confucius3-Math에서 오픈소스로 공개합니다.
English
We introduce Confucius3-Math, an open-source large language model with 14B
parameters that (1) runs efficiently on a single consumer-grade GPU; (2)
achieves SOTA performances on a range of mathematical reasoning tasks,
outperforming many models with significantly larger sizes. In particular, as
part of our mission to enhancing education and knowledge dissemination with AI,
Confucius3-Math is specifically committed to mathematics learning for Chinese
K-12 students and educators. Built via post-training with large-scale
reinforcement learning (RL), Confucius3-Math aligns with national curriculum
and excels at solving main-stream Chinese K-12 mathematical problems with low
cost. In this report we share our development recipe, the challenges we
encounter and the techniques we develop to overcome them. In particular, we
introduce three technical innovations: Targeted Entropy Regularization, Recent
Sample Recovery and Policy-Specific Hardness Weighting. These innovations
encompass a new entropy regularization, a novel data scheduling policy, and an
improved group-relative advantage estimator. Collectively, they significantly
stabilize the RL training, improve data efficiency, and boost performance. Our
work demonstrates the feasibility of building strong reasoning models in a
particular domain at low cost. We open-source our model and code at
https://github.com/netease-youdao/Confucius3-Math.