ChatPaper.aiChatPaper

InternLM-Math: Открытые большие языковые модели для математики, ориентированные на проверяемые рассуждения

InternLM-Math: Open Math Large Language Models Toward Verifiable Reasoning

February 9, 2024
Авторы: Huaiyuan Ying, Shuo Zhang, Linyang Li, Zhejian Zhou, Yunfan Shao, Zhaoye Fei, Yichuan Ma, Jiawei Hong, Kuikun Liu, Ziyi Wang, Yudong Wang, Zijian Wu, Shuaibin Li, Fengzhe Zhou, Hongwei Liu, Songyang Zhang, Wenwei Zhang, Hang Yan, Xipeng Qiu, Jiayu Wang, Kai Chen, Dahua Lin
cs.AI

Аннотация

Математические способности крупных языковых моделей могут отражать их способность к абстрактному рассуждению. В данной статье мы представляем и открываем исходный код нашей модели для математических рассуждений InternLM-Math, которая была дообучена на основе InternLM2. Мы объединяем цепочку рассуждений, моделирование вознаграждений, формальные рассуждения, аугментацию данных и интерпретатор кода в едином формате seq2seq и обучаем нашу модель быть универсальным инструментом для математических рассуждений, проверки, доказательства и аугментации. Эти способности могут быть использованы для разработки следующих математических языковых моделей или для самоитерации. InternLM-Math демонстрирует наилучшие результаты среди открытых моделей в условиях обучения с контекстом, тонкой настройки с учителем и кодового ассистирования на различных неформальных и формальных тестах, включая GSM8K, MATH, венгерский экзамен по математике, MathBench-ZH и MiniF2F. Наша предобученная модель достигает результата 30.3 на тестовом наборе MiniF2F без дополнительной настройки. Мы также исследуем, как использовать LEAN для решения математических задач, и изучаем её производительность в условиях многозадачного обучения, что демонстрирует возможность использования LEAN как универсальной платформы для решения и доказательства в математике. Наши модели, код и данные доступны по адресу https://github.com/InternLM/InternLM-Math.
English
The math abilities of large language models can represent their abstract reasoning ability. In this paper, we introduce and open-source our math reasoning LLMs InternLM-Math which is continue pre-trained from InternLM2. We unify chain-of-thought reasoning, reward modeling, formal reasoning, data augmentation, and code interpreter in a unified seq2seq format and supervise our model to be a versatile math reasoner, verifier, prover, and augmenter. These abilities can be used to develop the next math LLMs or self-iteration. InternLM-Math obtains open-sourced state-of-the-art performance under the setting of in-context learning, supervised fine-tuning, and code-assisted reasoning in various informal and formal benchmarks including GSM8K, MATH, Hungary math exam, MathBench-ZH, and MiniF2F. Our pre-trained model achieves 30.3 on the MiniF2F test set without fine-tuning. We further explore how to use LEAN to solve math problems and study its performance under the setting of multi-task learning which shows the possibility of using LEAN as a unified platform for solving and proving in math. Our models, codes, and data are released at https://github.com/InternLM/InternLM-Math.
PDF201December 15, 2024