ChatPaper.aiChatPaper

Selbstverbesserndes Vortraining: Verwendung nachtrainierter Modelle zum Vortraining besserer Modelle

Self-Improving Pretraining: using post-trained models to pretrain better models

January 29, 2026
papers.authors: Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva
cs.AI

papers.abstract

Die Sicherstellung von Sicherheit, Faktentreue und allgemeiner Qualität bei den Generierungen großer Sprachmodelle stellt eine kritische Herausforderung dar, insbesondere da diese Modelle zunehmend in realen Anwendungen eingesetzt werden. Der vorherrschende Ansatz zur Lösung dieser Probleme besteht darin, teure, sorgfältig kuratierte Datensätze zu sammeln und mehrstufiges Fine-Tuning und Alignment anzuwenden. Diese komplexe Pipeline kann jedoch nicht garantieren, dass während des Vortrainings erlernte Muster korrigiert werden. Daher ist die Behandlung dieser Probleme während des Vortrainings entscheidend, da es die Kernverhaltensweisen eines Modells prägt und verhindert, dass unsichere oder halluzinierte Ausgaben tief verankert werden. Um dieses Problem anzugehen, führen wir eine neue Vortrainingsmethode ein, die Dokumente streamt und bestärkendes Lernen (RL) verwendet, um die nächsten K generierten Tokens bei jedem Schritt zu verbessern. Ein starkes, nachtrainiertes Modell bewertet Kandidatengenerierungen – einschließlich Modell-Rollouts, des ursprünglichen Suffixes und eines umgeschriebenen Suffixes – hinsichtlich Qualität, Sicherheit und Faktentreue. Zu Beginn des Trainings stützt sich der Prozess auf die ursprünglichen und umgeschriebenen Suffixe; mit zunehmender Verbesserung des Modells belohnt RL hochwertige Rollouts. Dieser Ansatz baut von Grund auf qualitativ hochwertigere, sicherere und faktenbasiertere Modelle. In Experimenten erzielt unsere Methode im Vergleich zum standardmäßigen Vortraining relative Verbesserungen von 36,2 % bei der Faktentreue und 18,5 % bei der Sicherheit sowie Verbesserungen der Gewinnrate von bis zu 86,3 % bei der allgemeinen Generierungsqualität.
English
Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.
PDF63January 31, 2026