ChatPaper.aiChatPaper

InfiMM-WebMath-40B: Vooruitgang van Multimodale Pre-training voor Verbeterde Wiskundige Redenering

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

September 19, 2024
Auteurs: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI

Samenvatting

Het vooraf trainen op grootschalige, hoogwaardige datasets is cruciaal voor het verbeteren van de redeneervermogens van Grote Taalmodellen (LLM's), vooral in gespecialiseerde domeinen zoals wiskunde. Ondanks het erkende belang ontbreekt het momenteel aan een uitgebreide open-source pre-trainingsdataset die specifiek is ontworpen voor wiskundig redeneren in het Multimodale LLM's (MLLM's) veld. Om deze lacune aan te pakken, introduceren we InfiMM-WebMath-40B, een hoogwaardige dataset van geïnterlinieerde afbeelding-tekst documenten. Het omvat 24 miljoen webpagina's, 85 miljoen bijbehorende afbeeldings-URL's en 40 miljard teksttokens, allemaal zorgvuldig geëxtraheerd en gefilterd uit CommonCrawl. We bieden een gedetailleerd overzicht van onze gegevensverzameling en verwerkingspijplijn. Om de robuustheid van InfiMM-WebMath-40B te demonstreren, hebben we evaluaties uitgevoerd in zowel alleen-tekst als multimodale instellingen. Onze evaluaties op alleen-tekst benchmarks tonen aan dat, ondanks het gebruik van slechts 40 miljard tokens, onze dataset aanzienlijk de prestaties van ons 1.3B-model verbetert, met resultaten vergelijkbaar met DeepSeekMath-1.3B, dat 120 miljard tokens gebruikt voor dezelfde modelgrootte. Desalniettemin zetten onze modellen met de introductie van onze multimodale wiskundige pre-trainingsdataset een nieuwe state-of-the-art neer onder open-source modellen op multimodale wiskunde benchmarks zoals MathVerse en We-Math. We stellen onze gegevens beschikbaar op https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

Summary

AI-Generated Summary

PDF514November 16, 2024