ChatPaper.aiChatPaper

InfiMM-WebMath-40B: Avanzando en el preentrenamiento multimodal para mejorar el razonamiento matemático

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

September 19, 2024
Autores: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI

Resumen

El pre-entrenamiento en conjuntos de datos a gran escala y de alta calidad es crucial para mejorar las capacidades de razonamiento de los Modelos de Lenguaje Grandes (LLMs), especialmente en dominios especializados como las matemáticas. A pesar de la importancia reconocida, el campo de los Modelos de Lenguaje Multimodales (MLLMs) actualmente carece de un conjunto de datos de pre-entrenamiento de código abierto y completo diseñado específicamente para el razonamiento matemático. Para abordar esta brecha, presentamos InfiMM-WebMath-40B, un conjunto de datos de alta calidad de documentos de imagen-texto entrelazados. Consta de 24 millones de páginas web, 85 millones de URL de imágenes asociadas y 40 mil millones de tokens de texto, todos extraídos y filtrados meticulosamente de CommonCrawl. Proporcionamos una descripción detallada de nuestra recopilación de datos y el proceso de procesamiento. Para demostrar la robustez de InfiMM-WebMath-40B, realizamos evaluaciones tanto en configuraciones solo de texto como multimodales. Nuestras evaluaciones en bancos de pruebas solo de texto muestran que, a pesar de utilizar solo 40 mil millones de tokens, nuestro conjunto de datos mejora significativamente el rendimiento de nuestro modelo de 1.3B, ofreciendo resultados comparables a DeepSeekMath-1.3B, que utiliza 120 mil millones de tokens para el mismo tamaño de modelo. Sin embargo, con la introducción de nuestro conjunto de datos de pre-entrenamiento matemático multimodal, nuestros modelos establecen un nuevo estado del arte entre los modelos de código abierto en bancos de pruebas matemáticas multimodales como MathVerse y We-Math. Publicamos nuestros datos en https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

Summary

AI-Generated Summary

PDF514November 16, 2024