ArXiv-to-Model: Практическое исследование обучения научных языковых моделей
ArXiv-to-Model: A Practical Study of Scientific LM Training
February 19, 2026
Авторы: Anuj Gupta
cs.AI
Аннотация
Хотя передовые большие языковые модели демонстрируют мощные способности к рассуждениям и решению математических задач, практический процесс обучения специализированных научных языковых моделей непосредственно из исходных данных остается недостаточно документированным. В данной работе мы представляем детальное тематическое исследование по обучению научной языковой модели объемом 1.36 миллиарда параметров непосредственно из необработанных исходных кодов arXiv в формате LaTeX, охватывающих математику, информатику и теоретическую физику. Мы описываем сквозной конвейер, включающий фильтрацию метаданных, проверку архивов, извлечение LaTeX, нормализацию текста, предметно-ориентированную токенизацию и обучение плотных трансформеров в условиях ограниченных вычислительных ресурсов (2xGPU A100). На основе 24 экспериментальных прогонов мы анализируем стабильность обучения, законы масштабирования, потери при подготовке данных и узкие места в инфраструктуре. Наши результаты показывают, как решения на этапе предобработки существенно влияют на объем пригодных к использованию токенов, как токенизация воздействует на стабильность обработки символов и как ограничения систем хранения и ввода-вывода могут быть не менее значимыми ограничивающими факторами, чем вычислительные ресурсы. Мы также анализируем динамику сходимости и демонстрируем стабильное поведение процесса обучения в условиях богатого данными режима (52 миллиарда токенов предварительного обучения). Вместо предложения новой архитектуры данная работа представляет собой инженерно-обоснованное и прозрачное описание процесса обучения компактной научной языковой модели с нуля. Мы надеемся, что эти наблюдения помогут исследователям, работающим в условиях умеренных вычислительных бюджетов, которые стремятся создавать предметно-специализированные модели.
English
While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.