InfiMM-WebMath-40B: Развитие мультимодального предварительного обучения для улучшения математического мышления

Аннотация

Предварительное обучение на масштабных высококачественных наборах данных является ключевым для улучшения способностей рассуждения крупных языковых моделей (LLM), особенно в специализированных областях, таких как математика. Несмотря на признанное значение, в области мультимодальных LLM в настоящее время отсутствует всеобъемлющий набор данных для предварительного обучения с открытым исходным кодом, специально разработанный для математического рассуждения. Для заполнения этой пробела мы представляем InfiMM-WebMath-40B, высококачественный набор данных с переплетенными изображениями и текстовыми документами. Он включает 24 миллиона веб-страниц, 85 миллионов связанных URL-адресов изображений и 40 миллиардов токенов текста, все тщательно извлеченных и отфильтрованных из CommonCrawl. Мы предоставляем подробный обзор нашего процесса сбора и обработки данных. Для демонстрации надежности InfiMM-WebMath-40B мы провели оценку как в настройках только текста, так и в мультимодальных настройках. Наши оценки на текстовых бенчмарках показывают, что, несмотря на использование всего 40 миллиардов токенов, наш набор данных значительно улучшает производительность нашей модели 1.3B, достигая результатов, сравнимых с DeepSeekMath-1.3B, который использует 120 миллиардов токенов для той же размерности модели. Тем не менее, с введением нашего мультимодального математического набора данных для предварительного обучения, наши модели устанавливают новый уровень качества среди моделей с открытым исходным кодом на мультимодальных математических бенчмарках, таких как MathVerse и We-Math. Мы предоставляем наши данные по ссылке https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

English

Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

InfiMM-WebMath-40B: Развитие мультимодального предварительного обучения для улучшения математического мышления

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

Аннотация

Support