InfiMM-WebMath-40B: Развитие мультимодального предварительного обучения для улучшения математического мышления
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
September 19, 2024
Авторы: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI
Аннотация
Предварительное обучение на масштабных высококачественных наборах данных является ключевым для улучшения способностей рассуждения крупных языковых моделей (LLM), особенно в специализированных областях, таких как математика. Несмотря на признанное значение, в области мультимодальных LLM в настоящее время отсутствует всеобъемлющий набор данных для предварительного обучения с открытым исходным кодом, специально разработанный для математического рассуждения. Для заполнения этой пробела мы представляем InfiMM-WebMath-40B, высококачественный набор данных с переплетенными изображениями и текстовыми документами. Он включает 24 миллиона веб-страниц, 85 миллионов связанных URL-адресов изображений и 40 миллиардов токенов текста, все тщательно извлеченных и отфильтрованных из CommonCrawl. Мы предоставляем подробный обзор нашего процесса сбора и обработки данных. Для демонстрации надежности InfiMM-WebMath-40B мы провели оценку как в настройках только текста, так и в мультимодальных настройках. Наши оценки на текстовых бенчмарках показывают, что, несмотря на использование всего 40 миллиардов токенов, наш набор данных значительно улучшает производительность нашей модели 1.3B, достигая результатов, сравнимых с DeepSeekMath-1.3B, который использует 120 миллиардов токенов для той же размерности модели. Тем не менее, с введением нашего мультимодального математического набора данных для предварительного обучения, наши модели устанавливают новый уровень качества среди моделей с открытым исходным кодом на мультимодальных математических бенчмарках, таких как MathVerse и We-Math. Мы предоставляем наши данные по ссылке https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing
the reasoning capabilities of Large Language Models (LLMs), especially in
specialized domains such as mathematics. Despite the recognized importance, the
Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source
pre-training dataset specifically designed for mathematical reasoning. To
address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of
interleaved image-text documents. It comprises 24 million web pages, 85 million
associated image URLs, and 40 billion text tokens, all meticulously extracted
and filtered from CommonCrawl. We provide a detailed overview of our data
collection and processing pipeline. To demonstrate the robustness of
InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal
settings. Our evaluations on text-only benchmarks show that, despite utilizing
only 40 billion tokens, our dataset significantly enhances the performance of
our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses
120 billion tokens for the same model size. Nevertheless, with the introduction
of our multi-modal math pre-training dataset, our models set a new
state-of-the-art among open-source models on multi-modal math benchmarks such
as MathVerse and We-Math. We release our data at
https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.Summary
AI-Generated Summary