ArXiv-to-Model: Un estudio práctico sobre el entrenamiento de modelos lingüísticos científicos

Resumen

Si bien los modelos de lenguaje grandes de vanguardia demuestran sólidas capacidades de razonamiento y matemáticas, el proceso práctico de entrenar modelos de lenguaje científicos especializados a partir de fuentes primarias sigue estando poco documentado. En este trabajo, presentamos un estudio de caso detallado del entrenamiento de un modelo de lenguaje científico de 1.36B de parámetros directamente a partir de fuentes primarias en LaTeX de arXiv, abarcando matemáticas, ciencias de la computación y física teórica. Describimos un proceso integral que cubre la filtración de metadatos, validación de archivos, extracción de LaTeX, normalización de texto, tokenización con conocimiento del dominio y entrenamiento de transformadores densos bajo recursos computacionales limitados (2 GPUs A100). A través de 24 ejecuciones experimentales, analizamos la estabilidad del entrenamiento, el comportamiento de escalado, las pérdidas en el rendimiento de datos y los cuellos de botella en la infraestructura. Nuestros hallazgos destacan cómo las decisiones de preprocesamiento afectan significativamente el volumen utilizable de tokens, cómo la tokenización impacta la estabilidad simbólica, y cómo las limitaciones de almacenamiento y E/S pueden rivalizar con el cómputo como factores limitantes. Analizamos además la dinámica de convergencia y mostramos un comportamiento estable del entrenamiento en un régimen de datos abundantes (52B tokens de preentrenamiento). En lugar de proponer una arquitectura novedosa, este trabajo proporciona un relato transparente y basado en la ingeniería del entrenamiento de un modelo de lenguaje científico pequeño desde cero. Esperamos que estas perspectivas sirvan de apoyo a investigadores que operan con presupuestos computacionales moderados y buscan construir modelos especializados en dominios.

English

While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.

ArXiv-to-Model: Un estudio práctico sobre el entrenamiento de modelos lingüísticos científicos

ArXiv-to-Model: A Practical Study of Scientific LM Training

Resumen

Support