ArXiv-to-Model: Um Estudo Prático sobre o Treinamento de Modelos de Linguagem Científicos

Resumo

Embora os modelos de linguagem de grande porte de ponta demonstrem fortes capacidades de raciocínio e matemática, o processo prático de treinamento de modelos de linguagem científicos especializados por domínio a partir de fontes brutas permanece pouco documentado. Neste trabalho, apresentamos um estudo de caso detalhado do treinamento de um modelo de linguagem científico de 1,36 bilhão de parâmetros diretamente a partir de fontes LaTeX brutas do arXiv, abrangendo matemática, ciência da computação e física teórica. Descrevemos um pipeline de ponta a ponta que cobre filtragem de metadados, validação de arquivos, extração de LaTeX, normalização de texto, tokenização com consciência de domínio e treinamento de transformadores densos sob recursos computacionais limitados (2 GPUs A100). Por meio de 24 execuções experimentais, analisamos a estabilidade do treinamento, o comportamento de escalonamento, as perdas de rendimento de dados e os gargalos de infraestrutura. Nossas descobertas destacam como decisões de pré-processamento afetam significativamente o volume utilizável de tokens, como a tokenização impacta a estabilidade simbólica e como as restrições de armazenamento e E/S podem rivalizar com o poder computacional como fatores limitantes. Analisamos ainda a dinâmica de convergência e mostramos um comportamento de treinamento estável em um regime rico em dados (52 bilhões de tokens de pré-treinamento). Em vez de propor uma nova arquitetura, este trabalho fornece um relato transparente e fundamentado em engenharia do treinamento de um pequeno modelo de linguagem científico a partir do zero. Esperamos que esses insights apoiem pesquisadores que operam com orçamentos computacionais moderados e buscam construir modelos especializados por domínio.

English

While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.