ChatPaper.aiChatPaper

Самоулучшающееся предобучение: использование постобученных моделей для предобучения более качественных моделей

Self-Improving Pretraining: using post-trained models to pretrain better models

January 29, 2026
Авторы: Ellen Xiaoqing Tan, Shehzaad Dhuliawala, Jing Xu, Ping Yu, Sainbayar Sukhbaatar, Jason Weston, Olga Golovneva
cs.AI

Аннотация

Обеспечение безопасности, достоверности и общей качества генераций больших языковых моделей является критически важной задачей, особенно по мере их внедрения в реальные приложения. Преобладающий подход к решению этих проблем включает сбор дорогостоящих тщательно отобранных наборов данных и применение многоэтапной дообучения и согласования. Однако даже такой сложный процесс не может гарантировать исправление паттернов, усвоенных на этапе предварительного обучения. Поэтому устранение этих проблем на этапе предварительного обучения крайне важно, поскольку оно формирует базовое поведение модели и предотвращает глубокое закрепление небезопасных или галлюцинированных выводов. Для решения этой задачи мы представляем новый метод предварительного обучения, который потоково обрабатывает документы и использует обучение с подкреплением (RL) для улучшения следующих K генерируемых токенов на каждом шаге. Мощная дообученная модель оценивает кандидатные генерации — включая развертки модели, исходный суффикс и переписанный суффикс — по критериям качества, безопасности и достоверности. В начале обучения процесс опирается на исходные и переписанные суффиксы; по мере улучшения модели RL поощряет высококачественные развертки. Данный подход позволяет создавать более качественные, безопасные и достоверные модели с самого начала. В экспериментах наш метод демонстрирует относительное улучшение на 36,2% и 18,5% по сравнению со стандартным предварительным обучением по показателям достоверности и безопасности, а также улучшение win rate до 86,3% по общей качеству генерации.
English
Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.
PDF63January 31, 2026