ArXiv-to-Model: Eine praktische Studie zum Training wissenschaftlicher Sprachmodelle

Zusammenfassung

Während groß angelegte Frontier-Sprachmodelle starke Fähigkeiten im logischen Denken und mathematischen Bereich demonstrieren, bleibt der praktische Prozess des Trainings domainspezifischer wissenschaftlicher Sprachmodelle aus Rohquellen unterdokumentiert. In dieser Arbeit stellen wir eine detaillierte Fallstudie vor, in der ein wissenschaftliches Sprachmodell mit 1,36 Milliarden Parametern direkt aus rohen LaTeX-Quellen von arXiv aus den Bereichen Mathematik, Informatik und theoretische Physik trainiert wurde. Wir beschreiben eine End-to-End-Pipeline, die Metadaten-Filterung, Archivvalidierung, LaTeX-Extraktion, Textnormalisierung, domain-sensibles Tokenisieren und das Training eines dichten Transformer-Modells unter eingeschränkten Rechenressourcen (2xA100 GPUs) umfasst. Anhand von 24 Experimenten analysieren wir Trainingsstabilität, Skalierungsverhalten, Datenverluste und Infrastruktur-Engpässe. Unsere Ergebnisse zeigen, wie Vorverarbeitungsentscheidungen das nutzbare Token-Volumen erheblich beeinflussen, wie Tokenisierung die Stabilität bei symbolischen Inhalten beeinträchtigt und wie Speicher- und E/A-Beschränkungen die Rechenleistung als limitierende Faktoren übertreffen können. Wir analysieren ferner die Konvergenzdynamik und zeigen stabiles Trainingsverhalten in einem datenreichen Regime (52B Vortrainingstokens). Anstatt eine neuartige Architektur vorzuschlagen, liefert diese Arbeit einen ingenieurwissenschaftlich fundierten, transparenten Bericht über das Training eines kleinen wissenschaftlichen Sprachmodells von Grund auf. Wir hoffen, dass diese Erkenntnisse Forscher unterstützen, die mit moderaten Rechenbudgets domainspezifische Modelle entwickeln möchten.

English

While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.

ArXiv-to-Model: Eine praktische Studie zum Training wissenschaftlicher Sprachmodelle

ArXiv-to-Model: A Practical Study of Scientific LM Training

Zusammenfassung

Support