Automejora del Pretrenamiento: uso de modelos postentrenados para preentrenar modelos mejores

Resumen

Garantizar la seguridad, veracidad y calidad general en las generaciones de modelos de lenguaje grandes es un desafío crítico, especialmente a medida que estos modelos se despliegan cada vez más en aplicaciones del mundo real. El enfoque predominante para abordar estos problemas implica recopilar conjuntos de datos costosos y cuidadosamente seleccionados, y aplicar múltiples etapas de ajuste fino y alineación. Sin embargo, incluso esta compleja cadena de procesos no puede garantizar la corrección de patrones aprendidos durante el preentrenamiento. Por lo tanto, abordar estos problemas durante el preentrenamiento es crucial, ya que da forma a los comportamientos centrales de un modelo y evita que las salidas inseguras o alucinadas queden profundamente arraigadas. Para abordar este problema, presentamos un nuevo método de preentrenamiento que procesa documentos en flujo y utiliza aprendizaje por refuerzo (RL) para mejorar los próximos K tokens generados en cada paso. Un modelo sólido, ya entrenado, evalúa las generaciones candidatas —incluyendo desarrollos del modelo, el sufijo original y un sufijo reescrito— en cuanto a calidad, seguridad y veracidad. Al inicio del entrenamiento, el proceso se basa en los sufijos originales y reescritos; a medida que el modelo mejora, el RL premia los desarrollos de alta calidad. Este enfoque construye modelos de mayor calidad, más seguros y veraces desde la base. En experimentos, nuestro método logra mejoras relativas del 36.2% y 18.5% respecto al preentrenamiento estándar en términos de veracidad y seguridad, y mejoras en la tasa de acierto de hasta el 86.3% en la calidad general de la generación.

English

Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.

Automejora del Pretrenamiento: uso de modelos postentrenados para preentrenar modelos mejores

Self-Improving Pretraining: using post-trained models to pretrain better models

Resumen

Support