자기 향상 사전학습: 사후 학습된 모델을 활용한 더 나은 모델의 사전학습
Self-Improving Pretraining: using post-trained models to pretrain better models
January 29, 2026
저자: Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva
cs.AI
초록
대규모 언어 모델 생성의 안전성, 사실성 및 전반적인 품질 보장은 특히 이러한 모델이 실제 애플리케이션에 점점 더 많이 배포됨에 따라 중요한 과제입니다. 이러한 문제를 해결하기 위한 주요 접근법은 비용이 많이 들고 신중하게 선별된 데이터셋을 수집하고 여러 단계의 미세 조정 및 정렬을 적용하는 것을 포함합니다. 그러나 이러한 복잡한 파이프라인 조차도 사전 학습 중 습득된 패턴의 교정을 보장할 수 없습니다. 따라서 모델의 핵심 행동을 형성하고 안전하지 않거나 허구적인 출력이 깊게 내재되는 것을 방지하기 위해 사전 학습 단계에서 이러한 문제를 해결하는 것이 중요합니다. 이 문제를 해결하기 위해 우리는 문서를 스트리밍하고 각 단계에서 생성될 다음 K개의 토큰을 개선하기 위해 강화 학습(RL)을 사용하는 새로운 사전 학습 방법을 소개합니다. 사후 학습된 강력한 모델이 품질, 안전성 및 사실성 측면에서 후보 생성물(모델 롤아웃, 원본 접미사, 재작성된 접미사 포함)을 판단합니다. 학습 초기에는 원본 및 재작성된 접미사에 의존하지만, 모델이 개선됨에 따라 RL은 고품질 롤아웃을 보상합니다. 이 접근법은 근본적으로 더 높은 품질, 더 안전하고 더 사실적인 모델을 구축합니다. 실험에서 우리의 방법은 사실성과 안전성 측면에서 표준 사전 학습 대비 각각 36.2%, 18.5%의 상대적 개선을 보였으며, 전반적 생성 품질에서 최대 86.3%의 승률 향상을 나타냈습니다.
English
Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.