InfiMM-WebMath-40B : Faire progresser la préformation multimodale pour une amélioration de la raisonnement mathématique

papers.abstract

La pré-formation sur des ensembles de données à grande échelle et de haute qualité est cruciale pour améliorer les capacités de raisonnement des Grands Modèles de Langage (GML), en particulier dans des domaines spécialisés tels que les mathématiques. Malgré l'importance reconnue, le domaine des Modèles de Langage Multimodaux (MLM) manque actuellement d'un ensemble de données de pré-formation open source complet spécifiquement conçu pour le raisonnement mathématique. Pour combler cette lacune, nous présentons InfiMM-WebMath-40B, un ensemble de données de haute qualité de documents image-texte entrelacés. Il comprend 24 millions de pages web, 85 millions d'URL d'images associées et 40 milliards de jetons de texte, tous soigneusement extraits et filtrés à partir de CommonCrawl. Nous fournissons un aperçu détaillé de notre pipeline de collecte et de traitement des données. Pour démontrer la robustesse d'InfiMM-WebMath-40B, nous avons réalisé des évaluations à la fois en mode texte seul et multimodal. Nos évaluations sur des référentiels de texte seul montrent que, malgré l'utilisation de seulement 40 milliards de jetons, notre ensemble de données améliore significativement les performances de notre modèle 1.3B, fournissant des résultats comparables à DeepSeekMath-1.3B, qui utilise 120 milliards de jetons pour la même taille de modèle. Néanmoins, avec l'introduction de notre ensemble de données de pré-formation mathématique multimodal, nos modèles établissent un nouvel état de l'art parmi les modèles open source sur des référentiels mathématiques multimodaux tels que MathVerse et We-Math. Nous mettons nos données à disposition sur https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

English

Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.

InfiMM-WebMath-40B : Faire progresser la préformation multimodale pour une amélioration de la raisonnement mathématique

InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning

papers.abstract

Support