Confucius3-Math: Um Modelo de Linguagem de Grande Porte Leve e de Alto Desempenho para Raciocínio Matemático no Ensino Fundamental e Médio Chinês
Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning
June 23, 2025
Autores: Lixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan
cs.AI
Resumo
Apresentamos o Confucius3-Math, um modelo de linguagem de grande escala de código aberto com 14 bilhões de parâmetros que (1) opera de forma eficiente em uma única GPU de nível consumidor; (2) alcança desempenhos de ponta em uma variedade de tarefas de raciocínio matemático, superando muitos modelos com tamanhos significativamente maiores. Em particular, como parte de nossa missão de aprimorar a educação e a disseminação de conhecimento com IA, o Confucius3-Math é especificamente dedicado ao aprendizado de matemática para estudantes e educadores chineses do ensino fundamental e médio (K-12). Construído por meio de pós-treinamento com aprendizado por reforço em larga escala (RL), o Confucius3-Math está alinhado com o currículo nacional e se destaca na resolução de problemas matemáticos convencionais do K-12 chinês com baixo custo. Neste relatório, compartilhamos nossa receita de desenvolvimento, os desafios que encontramos e as técnicas que desenvolvemos para superá-los. Em particular, introduzimos três inovações técnicas: Regularização de Entropia Direcionada, Recuperação de Amostras Recentes e Ponderação de Dificuldade Específica da Política. Essas inovações abrangem uma nova regularização de entropia, uma política inédita de agendamento de dados e um estimador de vantagem relativa ao grupo aprimorado. Coletivamente, elas estabilizam significativamente o treinamento de RL, melhoram a eficiência dos dados e impulsionam o desempenho. Nosso trabalho demonstra a viabilidade de construir modelos de raciocínio robustos em um domínio específico com baixo custo. Disponibilizamos nosso modelo e código em código aberto em https://github.com/netease-youdao/Confucius3-Math.
English
We introduce Confucius3-Math, an open-source large language model with 14B
parameters that (1) runs efficiently on a single consumer-grade GPU; (2)
achieves SOTA performances on a range of mathematical reasoning tasks,
outperforming many models with significantly larger sizes. In particular, as
part of our mission to enhancing education and knowledge dissemination with AI,
Confucius3-Math is specifically committed to mathematics learning for Chinese
K-12 students and educators. Built via post-training with large-scale
reinforcement learning (RL), Confucius3-Math aligns with national curriculum
and excels at solving main-stream Chinese K-12 mathematical problems with low
cost. In this report we share our development recipe, the challenges we
encounter and the techniques we develop to overcome them. In particular, we
introduce three technical innovations: Targeted Entropy Regularization, Recent
Sample Recovery and Policy-Specific Hardness Weighting. These innovations
encompass a new entropy regularization, a novel data scheduling policy, and an
improved group-relative advantage estimator. Collectively, they significantly
stabilize the RL training, improve data efficiency, and boost performance. Our
work demonstrates the feasibility of building strong reasoning models in a
particular domain at low cost. We open-source our model and code at
https://github.com/netease-youdao/Confucius3-Math.