ChatPaper.aiChatPaper

InternLM-Math: Open Math Large Language Models Richting Verifieerbaar Redeneren

InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

February 9, 2024
Auteurs: Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin
cs.AI

Samenvatting

De wiskundige vaardigheden van grote taalmodellen kunnen hun abstracte redeneervermogen weerspiegelen. In dit artikel introduceren en openbaren we onze wiskundige redeneer-LLM's, InternLM-Math, die voortbouwen op voortgezette pre-training van InternLM2. We integreren keten-van-gedachte-redenering, beloningsmodellering, formeel redeneren, data-augmentatie en een code-interpreter in een uniforme seq2seq-indeling en begeleiden ons model om een veelzijdige wiskundige redenaar, verificateur, bewijzer en augmentator te zijn. Deze vaardigheden kunnen worden gebruikt om de volgende generatie wiskundige LLM's of zelf-iteratie te ontwikkelen. InternLM-Math behaalt open-source state-of-the-art prestaties in de context van in-context leren, supervised fine-tuning en code-ondersteund redeneren in diverse informele en formele benchmarks, waaronder GSM8K, MATH, het Hongaarse wiskunde-examen, MathBench-ZH en MiniF2F. Ons vooraf getrainde model behaalt een score van 30,3 op de MiniF2F-testset zonder fine-tuning. We onderzoeken verder hoe LEAN kan worden gebruikt om wiskundige problemen op te lossen en bestuderen de prestaties in de context van multi-task leren, wat de mogelijkheid aantoont om LEAN als een uniform platform te gebruiken voor het oplossen en bewijzen in de wiskunde. Onze modellen, code en data zijn vrijgegeven op https://github.com/InternLM/InternLM-Math.
English
The math abilities of large language models can represent their abstract reasoning ability. In this paper, we introduce and open-source our math reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We unify chain-of-thought reasoning, reward modeling, formal reasoning, data augmentation, and code interpreter in a unified seq2seq format and supervise our model to be a versatile math reasoner, verifier, prover, and augmenter. These abilities can be used to develop the next math LLMs or self-iteration. InternLM-Math obtains open-sourced state-of-the-art performance under the setting of in-context learning, supervised fine-tuning, and code-assisted reasoning in various informal and formal benchmarks including GSM8K, MATH, Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves 30.3 on the MiniF2F test set without fine-tuning. We further explore how to use LEAN to solve math problems and study its performance under the setting of multi-task learning which shows the possibility of using LEAN as a unified platform for solving and proving in math. Our models, codes, and data are released at https://github.com/InternLM/InternLM-Math.
PDF191February 8, 2026