ChatPaper.aiChatPaper

自己改善事前学習:学習済みモデルを用いたより優れたモデルの事前学習

Self-Improving Pretraining: using post-trained models to pretrain better models

January 29, 2026
著者: Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva
cs.AI

要旨

大規模言語モデルの生成において、安全性、事実性、全体的な品質を確保することは極めて重要な課題である。特に、現実世界のアプリケーションでこれらのモデルの展開が進む中でその重要性は増している。現在主流のアプローチは、高価で入念にキュレートされたデータセットを収集し、複数段階のファインチューニングとアライメントを適用するというものである。しかし、このような複雑なパイプラインであっても、事前学習段階で獲得されたパターンを修正できる保証はない。したがって、モデルの核心的な振る舞いを形成し、安全でない出力や虚構の出力が深く埋め込まれるのを防ぐため、事前学習段階でこれらの問題に対処することが極めて重要である。この課題に取り組むため、我々は新しい事前学習手法を提案する。この手法は文書をストリーミングし、強化学習を用いて各ステップで次に生成されるK個のトークンを改善する。強力な事後学習済みモデルが、モデルのロールアウト、元の接尾部、書き換えられた接尾部を含む候補生成文を、品質、安全性、事実性の観点で評価する。学習の初期段階では、元の接尾部と書き換えられた接尾部に依存するが、モデルが改善されるにつれて、高品質なロールアウトに対して強化学習の報酬が与えられる。このアプローチにより、根本からより高品質で安全かつ事実に基づいたモデルを構築する。実験では、本手法は標準的な事前学習と比較して、事実性と安全性においてそれぞれ36.2%、18.5%の相対的改善を示し、全体的な生成品質では最大86.3%の勝率改善をもたらした。
English
Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.
PDF63January 31, 2026