Autopreenhimento Aprimorado: Utilizando modelos pós-treinados para pré-treinar modelos melhores

Resumo

Garantir a segurança, veracidade e qualidade geral nas gerações de modelos de linguagem de grande porte é um desafio crítico, especialmente à medida que esses modelos são cada vez mais implantados em aplicações do mundo real. A abordagem predominante para lidar com essas questões envolve a coleta de conjuntos de dados caros e criteriosamente curados e a aplicação de múltiplos estágios de ajuste fino e alinhamento. No entanto, mesmo esse pipeline complexo não pode garantir a correção de padrões aprendidos durante o pré-treinamento. Portanto, abordar essas questões durante o pré-treinamento é crucial, pois ele molda os comportamentos centrais de um modelo e impede que saídas inseguras ou alucinadas se tornem profundamente arraigadas. Para enfrentar esse problema, introduzimos um novo método de pré-treinamento que transmite documentos em fluxo contínuo e usa aprendizado por reforço (RL) para melhorar os próximos K tokens gerados em cada etapa. Um modelo forte, pós-treinado, avalia as gerações candidatas – incluindo rollouts do modelo, o sufixo original e um sufixo reescrito – com base em qualidade, segurança e veracidade. No início do treinamento, o processo depende dos sufixos original e reescrito; à medida que o modelo melhora, o RL recompensa rollouts de alta qualidade. Essa abordagem constrói modelos de maior qualidade, mais seguros e factuais desde a base. Em experimentos, nosso método proporciona melhorias relativas de 36,2% e 18,5% em relação ao pré-treinamento padrão em termos de veracidade e segurança, e melhorias na taxa de vitória de até 86,3% na qualidade geral da geração.

English

Ensuring safety, factuality and overall quality in the generations of large language models is a critical challenge, especially as these models are increasingly deployed in real-world applications. The prevailing approach to addressing these issues involves collecting expensive, carefully curated datasets and applying multiple stages of fine-tuning and alignment. However, even this complex pipeline cannot guarantee the correction of patterns learned during pretraining. Therefore, addressing these issues during pretraining is crucial, as it shapes a model's core behaviors and prevents unsafe or hallucinated outputs from becoming deeply embedded. To tackle this issue, we introduce a new pretraining method that streams documents and uses reinforcement learning (RL) to improve the next K generated tokens at each step. A strong, post-trained model judges candidate generations -- including model rollouts, the original suffix, and a rewritten suffix -- for quality, safety, and factuality. Early in training, the process relies on the original and rewritten suffixes; as the model improves, RL rewards high-quality rollouts. This approach builds higher quality, safer, and more factual models from the ground up. In experiments, our method gives 36.2% and 18.5% relative improvements over standard pretraining in terms of factuality and safety, and up to 86.3% win rate improvements in overall generation quality.

Autopreenhimento Aprimorado: Utilizando modelos pós-treinados para pré-treinar modelos melhores

Self-Improving Pretraining: using post-trained models to pretrain better models

Resumo

Support