InfiMM-WebMath-40B : Faire progresser la préformation multimodale pour une amélioration de la raisonnement mathématique
InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
September 19, 2024
Auteurs: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
cs.AI
Résumé
La pré-formation sur des ensembles de données à grande échelle et de haute qualité est cruciale pour améliorer les capacités de raisonnement des Grands Modèles de Langage (GML), en particulier dans des domaines spécialisés tels que les mathématiques. Malgré l'importance reconnue, le domaine des Modèles de Langage Multimodaux (MLM) manque actuellement d'un ensemble de données de pré-formation open source complet spécifiquement conçu pour le raisonnement mathématique. Pour combler cette lacune, nous présentons InfiMM-WebMath-40B, un ensemble de données de haute qualité de documents image-texte entrelacés. Il comprend 24 millions de pages web, 85 millions d'URL d'images associées et 40 milliards de jetons de texte, tous soigneusement extraits et filtrés à partir de CommonCrawl. Nous fournissons un aperçu détaillé de notre pipeline de collecte et de traitement des données. Pour démontrer la robustesse d'InfiMM-WebMath-40B, nous avons réalisé des évaluations à la fois en mode texte seul et multimodal. Nos évaluations sur des référentiels de texte seul montrent que, malgré l'utilisation de seulement 40 milliards de jetons, notre ensemble de données améliore significativement les performances de notre modèle 1.3B, fournissant des résultats comparables à DeepSeekMath-1.3B, qui utilise 120 milliards de jetons pour la même taille de modèle. Néanmoins, avec l'introduction de notre ensemble de données de pré-formation mathématique multimodal, nos modèles établissent un nouvel état de l'art parmi les modèles open source sur des référentiels mathématiques multimodaux tels que MathVerse et We-Math. Nous mettons nos données à disposition sur https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
English
Pre-training on large-scale, high-quality datasets is crucial for enhancing
the reasoning capabilities of Large Language Models (LLMs), especially in
specialized domains such as mathematics. Despite the recognized importance, the
Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source
pre-training dataset specifically designed for mathematical reasoning. To
address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of
interleaved image-text documents. It comprises 24 million web pages, 85 million
associated image URLs, and 40 billion text tokens, all meticulously extracted
and filtered from CommonCrawl. We provide a detailed overview of our data
collection and processing pipeline. To demonstrate the robustness of
InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal
settings. Our evaluations on text-only benchmarks show that, despite utilizing
only 40 billion tokens, our dataset significantly enhances the performance of
our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses
120 billion tokens for the same model size. Nevertheless, with the introduction
of our multi-modal math pre-training dataset, our models set a new
state-of-the-art among open-source models on multi-modal math benchmarks such
as MathVerse and We-Math. We release our data at
https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.Summary
AI-Generated Summary