Confucius3-Math: Um Modelo de Linguagem de Grande Porte Leve e de Alto Desempenho para Raciocínio Matemático no Ensino Fundamental e Médio Chinês

Resumo

Apresentamos o Confucius3-Math, um modelo de linguagem de grande escala de código aberto com 14 bilhões de parâmetros que (1) opera de forma eficiente em uma única GPU de nível consumidor; (2) alcança desempenhos de ponta em uma variedade de tarefas de raciocínio matemático, superando muitos modelos com tamanhos significativamente maiores. Em particular, como parte de nossa missão de aprimorar a educação e a disseminação de conhecimento com IA, o Confucius3-Math é especificamente dedicado ao aprendizado de matemática para estudantes e educadores chineses do ensino fundamental e médio (K-12). Construído por meio de pós-treinamento com aprendizado por reforço em larga escala (RL), o Confucius3-Math está alinhado com o currículo nacional e se destaca na resolução de problemas matemáticos convencionais do K-12 chinês com baixo custo. Neste relatório, compartilhamos nossa receita de desenvolvimento, os desafios que encontramos e as técnicas que desenvolvemos para superá-los. Em particular, introduzimos três inovações técnicas: Regularização de Entropia Direcionada, Recuperação de Amostras Recentes e Ponderação de Dificuldade Específica da Política. Essas inovações abrangem uma nova regularização de entropia, uma política inédita de agendamento de dados e um estimador de vantagem relativa ao grupo aprimorado. Coletivamente, elas estabilizam significativamente o treinamento de RL, melhoram a eficiência dos dados e impulsionam o desempenho. Nosso trabalho demonstra a viabilidade de construir modelos de raciocínio robustos em um domínio específico com baixo custo. Disponibilizamos nosso modelo e código em código aberto em https://github.com/netease-youdao/Confucius3-Math.

English

We introduce Confucius3-Math, an open-source large language model with 14B parameters that (1) runs efficiently on a single consumer-grade GPU; (2) achieves SOTA performances on a range of mathematical reasoning tasks, outperforming many models with significantly larger sizes. In particular, as part of our mission to enhancing education and knowledge dissemination with AI, Confucius3-Math is specifically committed to mathematics learning for Chinese K-12 students and educators. Built via post-training with large-scale reinforcement learning (RL), Confucius3-Math aligns with national curriculum and excels at solving main-stream Chinese K-12 mathematical problems with low cost. In this report we share our development recipe, the challenges we encounter and the techniques we develop to overcome them. In particular, we introduce three technical innovations: Targeted Entropy Regularization, Recent Sample Recovery and Policy-Specific Hardness Weighting. These innovations encompass a new entropy regularization, a novel data scheduling policy, and an improved group-relative advantage estimator. Collectively, they significantly stabilize the RL training, improve data efficiency, and boost performance. Our work demonstrates the feasibility of building strong reasoning models in a particular domain at low cost. We open-source our model and code at https://github.com/netease-youdao/Confucius3-Math.

Confucius3-Math: Um Modelo de Linguagem de Grande Porte Leve e de Alto Desempenho para Raciocínio Matemático no Ensino Fundamental e Médio Chinês

Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning

Resumo

Support