InternLM-Math : Modèles de Langage à Grande Échelle Ouverts pour le Raisonnement Mathématique Vérifiable
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning
February 9, 2024
papers.authors: Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin
cs.AI
papers.abstract
Les capacités mathématiques des grands modèles de langage peuvent représenter leur aptitude au raisonnement abstrait. Dans cet article, nous présentons et ouvrons au public nos modèles de raisonnement mathématique InternLM-Math, qui sont pré-entraînés à partir d'InternLM2. Nous unifions le raisonnement en chaîne de pensée, la modélisation de récompense, le raisonnement formel, l'augmentation de données et l'interpréteur de code dans un format séquentiel à séquentiel (seq2seq) unifié, et supervisons notre modèle pour qu'il devienne un raisonneur, vérificateur, prouveur et générateur de données mathématiques polyvalent. Ces capacités peuvent être utilisées pour développer les prochains modèles de langage mathématique ou pour l'auto-itération. InternLM-Math obtient des performances de pointe open-source dans le cadre de l'apprentissage en contexte, du fine-tuning supervisé et du raisonnement assisté par code sur divers benchmarks informels et formels, notamment GSM8K, MATH, l'examen de mathématiques hongrois, MathBench-ZH et MiniF2F. Notre modèle pré-entraîné atteint un score de 30,3 sur l'ensemble de test MiniF2F sans fine-tuning. Nous explorons également comment utiliser LEAN pour résoudre des problèmes mathématiques et étudions ses performances dans le cadre de l'apprentissage multitâche, ce qui montre la possibilité d'utiliser LEAN comme plateforme unifiée pour la résolution et la preuve en mathématiques. Nos modèles, codes et données sont disponibles à l'adresse https://github.com/InternLM/InternLM-Math.
English
The math abilities of large language models can represent their abstract
reasoning ability. In this paper, we introduce and open-source our math
reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We
unify chain-of-thought reasoning, reward modeling, formal reasoning, data
augmentation, and code interpreter in a unified seq2seq format and supervise
our model to be a versatile math reasoner, verifier, prover, and augmenter.
These abilities can be used to develop the next math LLMs or self-iteration.
InternLM-Math obtains open-sourced state-of-the-art performance under the
setting of in-context learning, supervised fine-tuning, and code-assisted
reasoning in various informal and formal benchmarks including GSM8K, MATH,
Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves
30.3 on the MiniF2F test set without fine-tuning. We further explore how to use
LEAN to solve math problems and study its performance under the setting of
multi-task learning which shows the possibility of using LEAN as a unified
platform for solving and proving in math. Our models, codes, and data are
released at https://github.com/InternLM/InternLM-Math.