Auto-amélioration du pré-entraînement : utilisation de modèles post-entrainés pour pré-entraîner de meilleurs modèles

papers.abstract

Assurer la sécurité, la véracité et la qualité globale des générations des grands modèles de langage est un défi crucial, surtout avec le déploiement croissant de ces modèles dans des applications réelles. L'approche prédominante pour résoudre ces problèmes consiste à collecter des jeux de données coûteux et soigneusement préparés, puis à appliquer plusieurs étapes de fine-tuning et d'alignement. Cependant, même ce pipeline complexe ne peut garantir la correction des schémas appris lors du pré-entraînement. Par conséquent, il est essentiel de traiter ces problèmes pendant le pré-entraînement, car celui-ci façonne les comportements fondamentaux d'un modèle et empêche que des sorties non sécurisées ou hallucinées ne deviennent profondément ancrées. Pour résoudre ce problème, nous introduisons une nouvelle méthode de pré-entraînement qui traite les documents en flux continu et utilise l'apprentissage par renforcement (RL) pour améliorer les K prochains tokens générés à chaque étape. Un modèle robuste, post-entraîné, évalue la qualité, la sécurité et la véracité des générations candidates – incluant des déroulements du modèle, le suffixe original et un suffixe réécrit. Tôt dans l'entraînement, le processus s'appuie sur les suffixes originaux et réécrits ; à mesure que le modèle s'améliore, le RL récompense les déroulements de haute qualité. Cette approche construit des modèles de meilleure qualité, plus sûrs et plus factuels dès la base. Lors d'expériences, notre méthode obtient des améliorations relatives de 36,2 % et 18,5 % par rapport au pré-entraînement standard en termes de véracité et de sécurité, et des taux de victoire allant jusqu'à 86,3 % pour la qualité globale de génération.

English

Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.

Auto-amélioration du pré-entraînement : utilisation de modèles post-entrainés pour pré-entraîner de meilleurs modèles

Self-Improving Pretraining: using post-trained models to pretrain better models

papers.abstract

Support