ArXiv-to-Model : Une étude pratique de l'entraînement de modèles linguistiques scientifiques

Résumé

Si les grands modèles de langage de pointe démontrent d'impressionnantes capacités de raisonnement et mathématiques, le processus pratique d'entraînement de modèles de langage scientifiques spécialisés à partir de sources brutes reste insuffisamment documenté. Dans ce travail, nous présentons une étude de cas détaillée de l'entraînement d'un modèle de langage scientifique de 1,36 milliard de paramètres directement à partir des sources LaTeX brutes d'arXiv couvrant les mathématiques, l'informatique et la physique théorique. Nous décrivons un pipeline de bout en bout incluant le filtrage des métadonnées, la validation des archives, l'extraction du LaTeX, la normalisation du texte, la tokenisation adaptée au domaine et l'entraînement dense d'un transformeur sous contrainte de calcul (2 GPU A100). À travers 24 séries d'expériences, nous analysons la stabilité de l'entraînement, les lois d'échelle, les pertes de rendement des données et les goulots d'étranglement infrastructurels. Nos résultats soulignent comment les décisions de prétraitement affectent significativement le volume de tokens utilisables, comment la tokenisation impacte la stabilité symbolique, et comment les contraintes de stockage et d'E/S peuvent rivaliser avec le calcul comme facteurs limitants. Nous analysons en outre la dynamique de convergence et montrons un comportement d'entraînement stable dans un régime riche en données (52 milliards de tokens de pré-entraînement). Plutôt que de proposer une nouvelle architecture, ce travail fournit un compte rendu transparent et ancré dans l'ingénierie de l'entraînement d'un petit modèle de langage scientifique à partir de zéro. Nous espérons que ces insights aideront les chercheurs travaillant avec des budgets de calcul modérés qui souhaitent construire des modèles spécialisés dans un domaine.

English

While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.

ArXiv-to-Model : Une étude pratique de l'entraînement de modèles linguistiques scientifiques

ArXiv-to-Model: A Practical Study of Scientific LM Training

Résumé

Support