InfiMM-WebMath-40B: Avanzamento del Pre-Training Multimodale per un Miglioramento della Ragionamento Matematico
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
September 19, 2024
Autori: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI
Abstract
Il pre-addestramento su dataset di grandi dimensioni e di alta qualità è cruciale per potenziare le capacità di ragionamento dei Grandi Modelli Linguistici (LLM), specialmente in ambiti specializzati come la matematica. Nonostante l'importanza riconosciuta, attualmente nel campo dei Modelli Linguistici Multimodali (MLLM) manca un dataset di pre-addestramento open-source esaustivo appositamente progettato per il ragionamento matematico. Per colmare questa lacuna, presentiamo InfiMM-WebMath-40B, un dataset di alta qualità di documenti immagine-testo intercalati. Esso comprende 24 milioni di pagine web, 85 milioni di URL di immagini associate e 40 miliardi di token di testo, tutti estratti e filtrati meticolosamente da CommonCrawl. Forniamo una panoramica dettagliata della nostra raccolta dati e del nostro processo di elaborazione. Per dimostrare la robustezza di InfiMM-WebMath-40B, abbiamo condotto valutazioni sia in impostazioni solo testo che multimodali. Le nostre valutazioni su benchmark solo testo mostrano che, nonostante l'utilizzo di soli 40 miliardi di token, il nostro dataset migliora significativamente le prestazioni del nostro modello da 1.3B, ottenendo risultati paragonabili a DeepSeekMath-1.3B, che utilizza 120 miliardi di token per la stessa dimensione del modello. Tuttavia, con l'introduzione del nostro dataset di pre-addestramento matematico multimodale, i nostri modelli stabiliscono un nuovo stato dell'arte tra i modelli open-source su benchmark matematici multimodali come MathVerse e We-Math. Rilasciamo i nostri dati su https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing
the reasoning capabilities of Large Language Models (LLMs), especially in
specialized domains such as mathematics. Despite the recognized importance, the
Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source
pre-training dataset specifically designed for mathematical reasoning. To
address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of
interleaved image-text documents. It comprises 24 million web pages, 85 million
associated image URLs, and 40 billion text tokens, all meticulously extracted
and filtered from CommonCrawl. We provide a detailed overview of our data
collection and processing pipeline. To demonstrate the robustness of
InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal
settings. Our evaluations on text-only benchmarks show that, despite utilizing
only 40 billion tokens, our dataset significantly enhances the performance of
our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses
120 billion tokens for the same model size. Nevertheless, with the introduction
of our multi-modal math pre-training dataset, our models set a new
state-of-the-art among open-source models on multi-modal math benchmarks such
as MathVerse and We-Math. We release our data at
https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.Summary
AI-Generated Summary