Confucius3-Math: Ein leichtgewichtiges, leistungsstarkes Reasoning-LLM für das chinesische K-12-Mathematiklernen
Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning
June 23, 2025
Autoren: Lixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan
cs.AI
Zusammenfassung
Wir stellen Confucius3-Math vor, ein Open-Source-Großsprachmodell mit 14 Milliarden Parametern, das (1) effizient auf einer einzigen Consumer-GPU läuft; (2) Spitzenleistungen (SOTA) bei einer Reihe von mathematischen Denkaufgaben erzielt und dabei viele Modelle mit deutlich größeren Parametern übertrifft. Insbesondere im Rahmen unserer Mission, Bildung und Wissensverbreitung durch KI zu fördern, ist Confucius3-Math speziell auf das Mathematik-Lernen für chinesische Schüler und Lehrkräfte der Klassenstufen K-12 ausgerichtet. Durch Nachschulung mit groß angelegtem Reinforcement Learning (RL) ausgebaut, orientiert sich Confucius3-Math am nationalen Lehrplan und zeichnet sich durch die kostengünstige Lösung gängiger mathematischer Probleme der chinesischen K-12-Stufe aus. In diesem Bericht teilen wir unser Entwicklungsrezept, die Herausforderungen, auf die wir gestoßen sind, und die Techniken, die wir zu ihrer Bewältigung entwickelt haben. Insbesondere führen wir drei technische Innovationen ein: Targeted Entropy Regularization, Recent Sample Recovery und Policy-Specific Hardness Weighting. Diese Innovationen umfassen eine neue Entropieregularisierung, eine neuartige Datenplanungsstrategie und einen verbesserten gruppenrelativen Vorteilsschätzer. Gemeinsam stabilisieren sie das RL-Training erheblich, verbessern die Dateneffizienz und steigern die Leistung. Unsere Arbeit zeigt die Machbarkeit, starke Denkmodelle in einem bestimmten Bereich kostengünstig zu entwickeln. Wir stellen unser Modell und unseren Code unter https://github.com/netease-youdao/Confucius3-Math als Open Source zur Verfügung.
English
We introduce Confucius3-Math, an open-source large language model with 14B
parameters that (1) runs efficiently on a single consumer-grade GPU; (2)
achieves SOTA performances on a range of mathematical reasoning tasks,
outperforming many models with significantly larger sizes. In particular, as
part of our mission to enhancing education and knowledge dissemination with AI,
Confucius3-Math is specifically committed to mathematics learning for Chinese
K-12 students and educators. Built via post-training with large-scale
reinforcement learning (RL), Confucius3-Math aligns with national curriculum
and excels at solving main-stream Chinese K-12 mathematical problems with low
cost. In this report we share our development recipe, the challenges we
encounter and the techniques we develop to overcome them. In particular, we
introduce three technical innovations: Targeted Entropy Regularization, Recent
Sample Recovery and Policy-Specific Hardness Weighting. These innovations
encompass a new entropy regularization, a novel data scheduling policy, and an
improved group-relative advantage estimator. Collectively, they significantly
stabilize the RL training, improve data efficiency, and boost performance. Our
work demonstrates the feasibility of building strong reasoning models in a
particular domain at low cost. We open-source our model and code at
https://github.com/netease-youdao/Confucius3-Math.