InfiMM-WebMath-40B: Vooruitgang van Multimodale Pre-training voor Verbeterde Wiskundige Redenering
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
September 19, 2024
Auteurs: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI
Samenvatting
Het vooraf trainen op grootschalige, hoogwaardige datasets is cruciaal voor het verbeteren van de redeneervermogens van Grote Taalmodellen (LLM's), vooral in gespecialiseerde domeinen zoals wiskunde. Ondanks het erkende belang ontbreekt het momenteel aan een uitgebreide open-source pre-trainingsdataset die specifiek is ontworpen voor wiskundig redeneren in het Multimodale LLM's (MLLM's) veld. Om deze lacune aan te pakken, introduceren we InfiMM-WebMath-40B, een hoogwaardige dataset van geïnterlinieerde afbeelding-tekst documenten. Het omvat 24 miljoen webpagina's, 85 miljoen bijbehorende afbeeldings-URL's en 40 miljard teksttokens, allemaal zorgvuldig geëxtraheerd en gefilterd uit CommonCrawl. We bieden een gedetailleerd overzicht van onze gegevensverzameling en verwerkingspijplijn. Om de robuustheid van InfiMM-WebMath-40B te demonstreren, hebben we evaluaties uitgevoerd in zowel alleen-tekst als multimodale instellingen. Onze evaluaties op alleen-tekst benchmarks tonen aan dat, ondanks het gebruik van slechts 40 miljard tokens, onze dataset aanzienlijk de prestaties van ons 1.3B-model verbetert, met resultaten vergelijkbaar met DeepSeekMath-1.3B, dat 120 miljard tokens gebruikt voor dezelfde modelgrootte. Desalniettemin zetten onze modellen met de introductie van onze multimodale wiskundige pre-trainingsdataset een nieuwe state-of-the-art neer onder open-source modellen op multimodale wiskunde benchmarks zoals MathVerse en We-Math. We stellen onze gegevens beschikbaar op https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing
the reasoning capabilities of Large Language Models (LLMs), especially in
specialized domains such as mathematics. Despite the recognized importance, the
Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source
pre-training dataset specifically designed for mathematical reasoning. To
address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of
interleaved image-text documents. It comprises 24 million web pages, 85 million
associated image URLs, and 40 billion text tokens, all meticulously extracted
and filtered from CommonCrawl. We provide a detailed overview of our data
collection and processing pipeline. To demonstrate the robustness of
InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal
settings. Our evaluations on text-only benchmarks show that, despite utilizing
only 40 billion tokens, our dataset significantly enhances the performance of
our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses
120 billion tokens for the same model size. Nevertheless, with the introduction
of our multi-modal math pre-training dataset, our models set a new
state-of-the-art among open-source models on multi-modal math benchmarks such
as MathVerse and We-Math. We release our data at
https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.Summary
AI-Generated Summary