ArXiv-to-Model: Uno studio pratico sull'addestramento di LM scientifici

Abstract

Sebbene i modelli linguistici all'avanguardia dimostrino forti capacità di ragionamento e matematiche, il processo pratico di addestramento di modelli linguistici scientifici specializzati a partire da fonti grezze rimane poco documentato. In questo lavoro, presentiamo uno studio di caso dettagliato sull'addestramento di un modello linguistico scientifico da 1,36 miliardi di parametri direttamente da sorgenti LaTeX grezze di arXiv, relative a matematica, informatica e fisica teorica. Descriviamo una pipeline end-to-end che copre filtraggio dei metadati, validazione degli archivi, estrazione del LaTeX, normalizzazione del testo, tokenizzazione consapevole del dominio e addestramento di transformer densi con risorse computazionali limitate (2 GPU A100). Attraverso 24 esecuzioni sperimentali, analizziamo la stabilità dell'addestramento, il comportamento di scaling, le perdite di resa dei dati e i colli di bottiglia infrastrutturali. I nostri risultati evidenziano come le decisioni di pre-elaborazione influenzino significativamente il volume di token utilizzabili, come la tokenizzazione impatti la stabilità simbolica e come i vincoli di archiviazione e I/O possano rivaleggiare con la potenza di calcolo come fattori limitanti. Analizziamo inoltre le dinamiche di convergenza e mostriamo un comportamento di addestramento stabile in un regime ricco di dati (52 miliardi di token di pre-addestramento). Piuttosto che proporre un'architettura innovativa, questo lavoro fornisce una descrizione ingegneristicamente fondata e trasparente dell'addestramento di un piccolo modello linguistico scientifico da zero. Confidiamo che questi approfondimenti possano supportare i ricercatori che operano con budget computazionali moderati e che mirano a costruire modelli specializzati per dominio.

English

While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.

ArXiv-to-Model: Uno studio pratico sull'addestramento di LM scientifici

ArXiv-to-Model: A Practical Study of Scientific LM Training

Abstract

Support