ArXiv-to-Model: Een Praktische Studie naar het Trainen van Wetenschappelijke Taalmodellen

Samenvatting

Hoewel toonaangevende grote taalmodellen sterke redeneer- en wiskundige capaciteiten demonstreren, blijft het praktische proces voor het trainen van domeinspecifieke wetenschappelijke taalmodellen vanuit ruwe bronnen onderbelicht. In dit werk presenteren we een gedetailleelde casestudy over het trainen van een wetenschappelijk taalmodel met 1,36 miljard parameters rechtstreeks vanuit ruwe arXiv LaTeX-bronnen, afkomstig uit de wiskunde, informatica en theoretische natuurkunde. We beschrijven een end-to-end pijplijn die metadata-filtering, archiefvalidatie, LaTeX-extractie, tekstnormalisatie, domeinbewuste tokenisatie en dense transformer-training onder beperkte rekenkracht (2x A100 GPU's) omvat. Via 24 experimentele runs analyseren we trainingsstabiliteit, schaalgedrag, verliezen in dataproductie en infrastructuurknelpunten. Onze bevindingen benadrukken hoe voorbewerkingsbeslissingen het bruikbare tokenvolume significant beïnvloeden, hoe tokenisatie de symbolische stabiliteit beïnvloedt, en hoe opslag- en I/O-beperkingen een even grote beperkende factor kunnen zijn als rekenkracht. We analyseren verder de convergentiedynamiek en tonen stabiel trainingsgedrag aan in een data-rijk regime (52B pretraining-tokens). In plaats van een nieuwe architectuur voor te stellen, biedt dit werk een op engineering gebaseerd, transparant verslag van het vanaf nul trainen van een klein wetenschappelijk taalmodel. We hopen dat deze inzichten onderzoekers met een beperkt rekenbudget ondersteunen die domeinspecifieke modellen willen bouwen.

English

While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.

ArXiv-to-Model: Een Praktische Studie naar het Trainen van Wetenschappelijke Taalmodellen

ArXiv-to-Model: A Practical Study of Scientific LM Training

Samenvatting

Support