ChatPaper.aiChatPaper

ArXiv-to-Model:科学的言語モデル学習の実践的研究

ArXiv-to-Model: A Practical Study of Scientific LM Training

February 19, 2026
著者: Anuj Gupta
cs.AI

要旨

最先端の大規模言語モデルは強力な推論能力や数学的能力を示す一方で、未加工のソースからドメイン特化型の科学言語モデルを訓練する実践的なプロセスについては、十分に文書化されていない。本研究では、数学・計算機科学・理論物理学にわたるarXivの未加工LaTeXソースから直接、1.36Bパラメータの科学言語モデルを訓練した詳細なケーススタディを提示する。メタデータフィルタリング、アーカイブ検証、LaTeX抽出、テキスト正規化、ドメインを考慮したトークン化、限られた計算資源(2xA100 GPU)での密なトランスフォーマー訓練までを含むエンドツーエンドのパイプラインを記述する。24回の実験を通じて、訓練の安定性、スケーリング挙動、データ収量の損失、インフラストラクチャのボトルネックを分析する。我々の知見は、前処理の決定が利用可能なトークン量に大きく影響すること、トークン化が記号的な安定性に影響を与えること、ストレージやI/Oの制約が計算資源と同程度の制限要因となりうることを明らかにする。さらに収束ダイナミクスを分析し、データ豊富な体制(52B事前学習トークン)における安定した訓練挙動を示す。本論文は新規アーキテクチャを提案するのではなく、小規模な科学言語モデルをゼロから訓練する過程を、工学的に根拠付けられた透明性のある形で報告する。これらの知見が、中程度の計算予算でドメイン特化型モデルの構築を目指す研究者の一助となることを期待する。
English
While frontier large language models demonstrate strong reasoning and mathematical capabilities, the practical process of training domain-specialized scientific language models from raw sources remains under-documented. In this work, we present a detailed case study of training a 1.36B-parameter scientific language model directly from raw arXiv LaTeX sources spanning mathematics, computer science, and theoretical physics. We describe an end-to-end pipeline covering metadata filtering, archive validation, LaTeX extraction, text normalization, domain-aware tokenization, and dense transformer training under constrained compute (2xA100 GPUs). Through 24 experimental runs, we analyze training stability, scaling behavior, data yield losses, and infrastructure bottlenecks. Our findings highlight how preprocessing decisions significantly affect usable token volume, how tokenization impacts symbolic stability, and how storage and I/O constraints can rival compute as limiting factors. We further analyze convergence dynamics and show stable training behavior in a data-rich regime (52B pretraining tokens). Rather than proposing a novel architecture, this work provides an engineering-grounded, transparent account of training a small scientific language model from scratch. We hope these insights support researchers operating under moderate compute budgets who seek to build domain-specialized models.
PDF41February 21, 2026