InfiMM-WebMath-40B: Avançando na Pré-Treinamento Multimodal para Aprimorar o Raciocínio Matemático
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
September 19, 2024
Autores: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI
Resumo
O pré-treino em conjuntos de dados de grande escala e alta qualidade é crucial para aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs), especialmente em domínios especializados como matemática. Apesar da importância reconhecida, o campo de Modelos de Linguagem Multimodais (MLLMs) atualmente carece de um conjunto de dados aberto abrangente especificamente projetado para raciocínio matemático. Para abordar essa lacuna, apresentamos o InfiMM-WebMath-40B, um conjunto de dados de alta qualidade de documentos imagem-texto entrelaçados. Ele é composto por 24 milhões de páginas da web, 85 milhões de URLs de imagem associadas e 40 bilhões de tokens de texto, todos meticulosamente extraídos e filtrados do CommonCrawl. Fornecemos uma visão geral detalhada de nossa coleta de dados e pipeline de processamento. Para demonstrar a robustez do InfiMM-WebMath-40B, realizamos avaliações tanto em configurações apenas de texto quanto multimodais. Nossas avaliações em benchmarks apenas de texto mostram que, apesar de utilizar apenas 40 bilhões de tokens, nosso conjunto de dados melhora significativamente o desempenho de nosso modelo de 1,3B, entregando resultados comparáveis ao DeepSeekMath-1.3B, que utiliza 120 bilhões de tokens para o mesmo tamanho de modelo. No entanto, com a introdução de nosso conjunto de dados de pré-treino matemático multimodal, nossos modelos estabelecem um novo estado-da-arte entre modelos de código aberto em benchmarks matemáticos multimodais como MathVerse e We-Math. Disponibilizamos nossos dados em https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing
the reasoning capabilities of Large Language Models (LLMs), especially in
specialized domains such as mathematics. Despite the recognized importance, the
Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source
pre-training dataset specifically designed for mathematical reasoning. To
address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of
interleaved image-text documents. It comprises 24 million web pages, 85 million
associated image URLs, and 40 billion text tokens, all meticulously extracted
and filtered from CommonCrawl. We provide a detailed overview of our data
collection and processing pipeline. To demonstrate the robustness of
InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal
settings. Our evaluations on text-only benchmarks show that, despite utilizing
only 40 billion tokens, our dataset significantly enhances the performance of
our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses
120 billion tokens for the same model size. Nevertheless, with the introduction
of our multi-modal math pre-training dataset, our models set a new
state-of-the-art among open-source models on multi-modal math benchmarks such
as MathVerse and We-Math. We release our data at
https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.Summary
AI-Generated Summary