ChatPaper.aiChatPaper

InfiMM-WebMath-40B: Avanzamento del Pre-Training Multimodale per un Miglioramento della Ragionamento Matematico

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

September 19, 2024
Autori: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI

Abstract

Il pre-addestramento su dataset di grandi dimensioni e di alta qualità è cruciale per potenziare le capacità di ragionamento dei Grandi Modelli Linguistici (LLM), specialmente in ambiti specializzati come la matematica. Nonostante l'importanza riconosciuta, attualmente nel campo dei Modelli Linguistici Multimodali (MLLM) manca un dataset di pre-addestramento open-source esaustivo appositamente progettato per il ragionamento matematico. Per colmare questa lacuna, presentiamo InfiMM-WebMath-40B, un dataset di alta qualità di documenti immagine-testo intercalati. Esso comprende 24 milioni di pagine web, 85 milioni di URL di immagini associate e 40 miliardi di token di testo, tutti estratti e filtrati meticolosamente da CommonCrawl. Forniamo una panoramica dettagliata della nostra raccolta dati e del nostro processo di elaborazione. Per dimostrare la robustezza di InfiMM-WebMath-40B, abbiamo condotto valutazioni sia in impostazioni solo testo che multimodali. Le nostre valutazioni su benchmark solo testo mostrano che, nonostante l'utilizzo di soli 40 miliardi di token, il nostro dataset migliora significativamente le prestazioni del nostro modello da 1.3B, ottenendo risultati paragonabili a DeepSeekMath-1.3B, che utilizza 120 miliardi di token per la stessa dimensione del modello. Tuttavia, con l'introduzione del nostro dataset di pre-addestramento matematico multimodale, i nostri modelli stabiliscono un nuovo stato dell'arte tra i modelli open-source su benchmark matematici multimodali come MathVerse e We-Math. Rilasciamo i nostri dati su https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

Summary

AI-Generated Summary

PDF514November 16, 2024