InternLM-Math: Modelli Linguistici di Grande Scala per la Matematica Verso un Ragionamento Verificabile

Abstract

Le capacità matematiche dei grandi modelli linguistici possono rappresentare la loro abilità di ragionamento astratto. In questo articolo, introduciamo e rendiamo open-source i nostri modelli linguistici per il ragionamento matematico InternLM-Math, che sono stati pre-addestrati a partire da InternLM2. Unifichiamo il ragionamento a catena di pensiero, la modellazione delle ricompense, il ragionamento formale, l'aumento dei dati e l'interprete di codice in un formato seq2seq unificato e supervisioniamo il nostro modello per diventare un ragionatore, verificatore, dimostratore e amplificatore matematico versatile. Queste abilità possono essere utilizzate per sviluppare i prossimi modelli linguistici matematici o per l'auto-iterazione. InternLM-Math ottiene prestazioni open-source all'avanguardia nell'ambito dell'apprendimento in-context, del fine-tuning supervisionato e del ragionamento assistito da codice in vari benchmark informali e formali, tra cui GSM8K, MATH, l'esame di matematica ungherese, MathBench-ZH e MiniF2F. Il nostro modello pre-addestrato raggiunge un punteggio di 30.3 sul test set di MiniF2F senza fine-tuning. Esploriamo ulteriormente come utilizzare LEAN per risolvere problemi matematici e studiamo le sue prestazioni nell'ambito dell'apprendimento multi-task, dimostrando la possibilità di utilizzare LEAN come piattaforma unificata per la risoluzione e la dimostrazione in matematica. I nostri modelli, codici e dati sono rilasciati su https://github.com/InternLM/InternLM-Math.

English

The math abilities of large language models can represent their abstract reasoning ability. In this paper, we introduce and open-source our math reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We unify chain-of-thought reasoning, reward modeling, formal reasoning, data augmentation, and code interpreter in a unified seq2seq format and supervise our model to be a versatile math reasoner, verifier, prover, and augmenter. These abilities can be used to develop the next math LLMs or self-iteration. InternLM-Math obtains open-sourced state-of-the-art performance under the setting of in-context learning, supervised fine-tuning, and code-assisted reasoning in various informal and formal benchmarks including GSM8K, MATH, Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves 30.3 on the MiniF2F test set without fine-tuning. We further explore how to use LEAN to solve math problems and study its performance under the setting of multi-task learning which shows the possibility of using LEAN as a unified platform for solving and proving in math. Our models, codes, and data are released at https://github.com/InternLM/InternLM-Math.

InternLM-Math: Modelli Linguistici di Grande Scala per la Matematica Verso un Ragionamento Verificabile

InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

Abstract

Support