InfiMM-WebMath-40B: Fortschrittliches Multimodales Vor-Training zur Verbesserung der mathematischen Argumentation
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
September 19, 2024
Autoren: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI
Zusammenfassung
Das Vortrainieren auf umfangreichen, hochwertigen Datensätzen ist entscheidend für die Verbesserung der Schlussfolgerungsfähigkeiten von Large Language Models (LLMs), insbesondere in spezialisierten Bereichen wie der Mathematik. Trotz der anerkannten Bedeutung fehlt es dem Bereich der Multimodal LLMs (MLLMs) derzeit an einem umfassenden Open-Source-Vortrainingsdatensatz, der speziell für mathematisches Schlussfolgern konzipiert ist. Um diese Lücke zu schließen, stellen wir InfiMM-WebMath-40B vor, einen hochwertigen Datensatz von ineinander verschachtelten Bild-Text-Dokumenten. Er umfasst 24 Millionen Webseiten, 85 Millionen zugehörige Bild-URLs und 40 Milliarden Text-Token, die alle sorgfältig aus CommonCrawl extrahiert und gefiltert wurden. Wir bieten einen detaillierten Überblick über unsere Datensammlung und Verarbeitungspipeline. Um die Robustheit von InfiMM-WebMath-40B zu demonstrieren, führten wir Bewertungen sowohl in reinen Text- als auch in multimodalen Einstellungen durch. Unsere Bewertungen auf reinen Text-Benchmarks zeigen, dass unser Datensatz trotz der Verwendung von nur 40 Milliarden Token die Leistung unseres 1,3B-Modells signifikant verbessert und Ergebnisse liefert, die mit DeepSeekMath-1.3B vergleichbar sind, welches 120 Milliarden Token für dieselbe Modellgröße verwendet. Dennoch setzen unsere Modelle mit der Einführung unseres multimodalen mathematischen Vortrainingsdatensatzes einen neuen Stand der Technik bei Open-Source-Modellen auf multimodalen Mathematik-Benchmarks wie MathVerse und We-Math. Wir veröffentlichen unsere Daten unter https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing
the reasoning capabilities of Large Language Models (LLMs), especially in
specialized domains such as mathematics. Despite the recognized importance, the
Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source
pre-training dataset specifically designed for mathematical reasoning. To
address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of
interleaved image-text documents. It comprises 24 million web pages, 85 million
associated image URLs, and 40 billion text tokens, all meticulously extracted
and filtered from CommonCrawl. We provide a detailed overview of our data
collection and processing pipeline. To demonstrate the robustness of
InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal
settings. Our evaluations on text-only benchmarks show that, despite utilizing
only 40 billion tokens, our dataset significantly enhances the performance of
our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses
120 billion tokens for the same model size. Nevertheless, with the introduction
of our multi-modal math pre-training dataset, our models set a new
state-of-the-art among open-source models on multi-modal math benchmarks such
as MathVerse and We-Math. We release our data at
https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.Summary
AI-Generated Summary