Zelfverbeterende voorpretraining: het gebruik van nagekwalificeerde modellen om betere modellen voor te trainen

Samenvatting

Het waarborgen van veiligheid, feitelijke juistheid en algemene kwaliteit bij de generaties van grote taalmodel(len) is een cruciale uitdaging, vooral nu deze modellen steeds vaker in praktijktoepassingen worden ingezet. De gangbare aanpak om deze problemen aan te pakken, bestaat uit het verzamelen van dure, zorgvuldig samengestelde datasets en het toepassen van meerdere fasen van fine-tuning en afstemming. Deze complexe pijplijn kan echter niet garanderen dat tijdens de voorafgaande training aangeleerde patronen worden gecorrigeerd. Daarom is het aanpakken van deze problemen tijdens de voorafgaande training van cruciaal belang, omdat dit de kerngedragingen van een model vormt en voorkomt dat onveilige of verzonnen uitvoer diepgeworteld raakt. Om dit probleem aan te pakken, introduceren we een nieuwe trainingsmethode vooraf die documenten verwerkt en reinforcement learning (RL) gebruikt om de volgende K gegenereerde tokens bij elke stap te verbeteren. Een sterk, naderhand getraind model beoordeelt kandidaat-generaties – inclusief model-rollouts, het oorspronkelijke suffix en een herschreven suffix – op kwaliteit, veiligheid en feitelijkheid. Vroeg in de training vertrouwt het proces op de oorspronkelijke en herschreven suffixen; naarmate het model verbetert, beloont RL hoogwaardige rollouts. Deze aanpak bouwt vanaf de grond af aan modellen op die van hogere kwaliteit, veiliger en feitelijker zijn. In experimenten levert onze methode een relatieve verbetering van 36,2% en 18,5% op ten opzichte van standaard voorafgaande training wat betreft feitelijkheid en veiligheid, en verbeteringen in winstpercentage voor algemene generatiekwaliteit tot 86,3%.

English

Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.

Zelfverbeterende voorpretraining: het gebruik van nagekwalificeerde modellen om betere modellen voor te trainen

Self-Improving Pretraining: using post-trained models to pretrain better models

Samenvatting

Support