ArXiv-to-Model: 과학 언어 모델 훈련에 관한 실용적 연구
ArXiv-to-Model: A Practical Study of Scientific LM Training
February 19, 2026
저자: Anuj Gupta
cs.AI
초록
프론티어 대규모 언어 모델들은 강력한 추론 및 수학 능력을 보여주지만, 원천 데이터로부터 도메인 특화 과학 언어 모델을 훈련하는 실제 과정은 여전히 제대로 문서화되지 않고 있습니다. 본 연구에서는 수학, 컴퓨터 과학, 이론 물리학 분야의 원시 arXiv LaTeX 소스로부터 1.36B 매개변수 과학 언어 모델을 직접 훈련하는 상세한 사례 연구를 제시합니다. 메타데이터 필터링, 아카이브 검증, LaTeX 추출, 텍스트 정규화, 도메인 인지 토큰화, 그리고 제한된 컴퓨팅 자원(2xA100 GPU) 하에서의 고밀도 트랜스포머 훈련을 아우르는 종단간 파이프라인을 설명합니다. 24회의 실험 실행을 통해 훈련 안정성, 확장 행동, 데이터 산출 손실, 그리고 인프라 병목 현상을 분석합니다. 우리의 연구 결과는 전처리 결정이 사용 가능한 토큰 양에 어떻게 큰 영향을 미치는지, 토큰화가 기호 안정성에 어떤 영향을 주는지, 그리고 저장 장치 및 I/O 제약이 컴퓨팅만큼이나 제한 요소가 될 수 있음을 강조합니다. 우리는 더 나아가 수렴 동역학을 분석하고 데이터 풍부 환경(52B 사전 훈련 토큰)에서 안정적인 훈련 행동을 보여줍니다. 본 논문은 새로운 아키텍처를 제안하기보다는, 소규모 과학 언어 모델을 처음부터 훈련하는 과정에 대한 공학적 근거와 투명한 기록을 제공합니다. 이러한 통찰이 중간 규모의 컴퓨팅 예산으로 도메인 특화 모델을 구축하려는 연구자들에게 도움이 되기를 바랍니다.
English
While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.