InternLM-Math: Modelli Linguistici di Grande Scala per la Matematica Verso un Ragionamento Verificabile
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning
February 9, 2024
Autori: Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin
cs.AI
Abstract
Le capacità matematiche dei grandi modelli linguistici possono rappresentare la loro abilità di ragionamento astratto. In questo articolo, introduciamo e rendiamo open-source i nostri modelli linguistici per il ragionamento matematico InternLM-Math, che sono stati pre-addestrati a partire da InternLM2. Unifichiamo il ragionamento a catena di pensiero, la modellazione delle ricompense, il ragionamento formale, l'aumento dei dati e l'interprete di codice in un formato seq2seq unificato e supervisioniamo il nostro modello per diventare un ragionatore, verificatore, dimostratore e amplificatore matematico versatile. Queste abilità possono essere utilizzate per sviluppare i prossimi modelli linguistici matematici o per l'auto-iterazione. InternLM-Math ottiene prestazioni open-source all'avanguardia nell'ambito dell'apprendimento in-context, del fine-tuning supervisionato e del ragionamento assistito da codice in vari benchmark informali e formali, tra cui GSM8K, MATH, l'esame di matematica ungherese, MathBench-ZH e MiniF2F. Il nostro modello pre-addestrato raggiunge un punteggio di 30.3 sul test set di MiniF2F senza fine-tuning. Esploriamo ulteriormente come utilizzare LEAN per risolvere problemi matematici e studiamo le sue prestazioni nell'ambito dell'apprendimento multi-task, dimostrando la possibilità di utilizzare LEAN come piattaforma unificata per la risoluzione e la dimostrazione in matematica. I nostri modelli, codici e dati sono rilasciati su https://github.com/InternLM/InternLM-Math.
English
The math abilities of large language models can represent their abstract
reasoning ability. In this paper, we introduce and open-source our math
reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We
unify chain-of-thought reasoning, reward modeling, formal reasoning, data
augmentation, and code interpreter in a unified seq2seq format and supervise
our model to be a versatile math reasoner, verifier, prover, and augmenter.
These abilities can be used to develop the next math LLMs or self-iteration.
InternLM-Math obtains open-sourced state-of-the-art performance under the
setting of in-context learning, supervised fine-tuning, and code-assisted
reasoning in various informal and formal benchmarks including GSM8K, MATH,
Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves
30.3 on the MiniF2F test set without fine-tuning. We further explore how to use
LEAN to solve math problems and study its performance under the setting of
multi-task learning which shows the possibility of using LEAN as a unified
platform for solving and proving in math. Our models, codes, and data are
released at https://github.com/InternLM/InternLM-Math.