ChatPaper.aiChatPaper

Confucius3-Math: Un Modello Linguistico Leggero e ad Alte Prestazioni per il Ragionamento nell'Apprendimento della Matematica Cinese K-12

Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning

June 23, 2025
Autori: Lixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan
cs.AI

Abstract

Presentiamo Confucius3-Math, un modello di linguaggio open-source di grandi dimensioni con 14 miliardi di parametri che (1) funziona in modo efficiente su una singola GPU di livello consumer; (2) raggiunge prestazioni all'avanguardia (SOTA) in una gamma di compiti di ragionamento matematico, superando molti modelli di dimensioni significativamente maggiori. In particolare, come parte della nostra missione di migliorare l'educazione e la diffusione della conoscenza con l'IA, Confucius3-Math è specificamente dedicato all'apprendimento della matematica per studenti e educatori cinesi del ciclo K-12. Costruito attraverso un post-addestramento con apprendimento per rinforzo (RL) su larga scala, Confucius3-Math è allineato con il curriculum nazionale e eccelle nel risolvere i principali problemi matematici del ciclo K-12 cinese a basso costo. In questo rapporto condividiamo la nostra ricetta di sviluppo, le sfide che abbiamo incontrato e le tecniche che abbiamo sviluppato per superarle. In particolare, introduciamo tre innovazioni tecniche: Targeted Entropy Regularization, Recent Sample Recovery e Policy-Specific Hardness Weighting. Queste innovazioni comprendono una nuova regolarizzazione dell'entropia, una politica di pianificazione dei dati innovativa e un migliorato stimatore del vantaggio relativo al gruppo. Collettivamente, stabilizzano significativamente l'addestramento RL, migliorano l'efficienza dei dati e aumentano le prestazioni. Il nostro lavoro dimostra la fattibilità di costruire modelli di ragionamento forti in un dominio specifico a basso costo. Rendiamo open-source il nostro modello e il codice su https://github.com/netease-youdao/Confucius3-Math.
English
We introduce Confucius3-Math, an open-source large language model with 14B parameters that (1) runs efficiently on a single consumer-grade GPU; (2) achieves SOTA performances on a range of mathematical reasoning tasks, outperforming many models with significantly larger sizes. In particular, as part of our mission to enhancing education and knowledge dissemination with AI, Confucius3-Math is specifically committed to mathematics learning for Chinese K-12 students and educators. Built via post-training with large-scale reinforcement learning (RL), Confucius3-Math aligns with national curriculum and excels at solving main-stream Chinese K-12 mathematical problems with low cost. In this report we share our development recipe, the challenges we encounter and the techniques we develop to overcome them. In particular, we introduce three technical innovations: Targeted Entropy Regularization, Recent Sample Recovery and Policy-Specific Hardness Weighting. These innovations encompass a new entropy regularization, a novel data scheduling policy, and an improved group-relative advantage estimator. Collectively, they significantly stabilize the RL training, improve data efficiency, and boost performance. Our work demonstrates the feasibility of building strong reasoning models in a particular domain at low cost. We open-source our model and code at https://github.com/netease-youdao/Confucius3-Math.
PDF41June 30, 2025