InternLM-Math: Modelos de Linguagem de Grande Escala para Matemática com Raciocínio Verificável
InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning
February 9, 2024
Autores: Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin
cs.AI
Resumo
As habilidades matemáticas de grandes modelos de linguagem podem representar sua capacidade de raciocínio abstrato. Neste artigo, apresentamos e disponibilizamos em código aberto nossos modelos de raciocínio matemático LLMs, o InternLM-Math, que foi pré-treinado continuamente a partir do InternLM2. Unificamos o raciocínio em cadeia de pensamento, modelagem de recompensa, raciocínio formal, aumento de dados e interpretação de código em um formato seq2seq unificado e supervisionamos nosso modelo para ser um solucionador, verificador, provador e ampliador de problemas matemáticos versátil. Essas habilidades podem ser usadas para desenvolver os próximos LLMs matemáticos ou para auto-iteração. O InternLM-Math alcança desempenho de ponta em código aberto sob a configuração de aprendizado em contexto, ajuste fino supervisionado e raciocínio assistido por código em diversos benchmarks informais e formais, incluindo GSM8K, MATH, exame de matemática da Hungria, MathBench-ZH e MiniF2F. Nosso modelo pré-treinado atinge 30,3 no conjunto de testes MiniF2F sem ajuste fino. Exploramos ainda como usar o LEAN para resolver problemas matemáticos e estudamos seu desempenho sob a configuração de aprendizado multitarefa, o que mostra a possibilidade de usar o LEAN como uma plataforma unificada para resolver e provar em matemática. Nossos modelos, códigos e dados estão disponíveis em https://github.com/InternLM/InternLM-Math.
English
The math abilities of large language models can represent their abstract
reasoning ability. In this paper, we introduce and open-source our math
reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We
unify chain-of-thought reasoning, reward modeling, formal reasoning, data
augmentation, and code interpreter in a unified seq2seq format and supervise
our model to be a versatile math reasoner, verifier, prover, and augmenter.
These abilities can be used to develop the next math LLMs or self-iteration.
InternLM-Math obtains open-sourced state-of-the-art performance under the
setting of in-context learning, supervised fine-tuning, and code-assisted
reasoning in various informal and formal benchmarks including GSM8K, MATH,
Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves
30.3 on the MiniF2F test set without fine-tuning. We further explore how to use
LEAN to solve math problems and study its performance under the setting of
multi-task learning which shows the possibility of using LEAN as a unified
platform for solving and proving in math. Our models, codes, and data are
released at https://github.com/InternLM/InternLM-Math.