Alinhando Modelos de Linguagem Grandes por Meio da Otimização Auto-Direcionada
Aligning Large Language Models via Self-Steering Optimization
October 22, 2024
Autores: Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin
cs.AI
Resumo
O alinhamento automatizado desenvolve sistemas de alinhamento com intervenção humana mínima. A chave para o alinhamento automatizado está em fornecer sinais de preferência aprendíveis e precisos para aprendizado de preferência sem anotação humana. Neste artigo, apresentamos a Otimização de Auto-Direcionamento (SSO), um algoritmo que gera autonomamente sinais de preferência de alta qualidade com base em princípios predefinidos durante o treinamento iterativo, eliminando a necessidade de anotação manual. O SSO mantém a precisão dos sinais garantindo uma lacuna consistente entre respostas escolhidas e rejeitadas, mantendo ambas on-policy para se adequarem à capacidade de aprendizado do modelo de política atual. O SSO pode beneficiar o treinamento online e offline do modelo de política, bem como aprimorar o treinamento de modelos de recompensa. Validamos a eficácia do SSO com dois modelos fundamentais, Qwen2 e Llama3.1, indicando que fornece sinais de preferência precisos e on-policy ao longo do treinamento iterativo. Sem nenhuma anotação manual ou modelos externos, o SSO leva a melhorias significativas de desempenho em seis benchmarks subjetivos ou objetivos. Além disso, os dados de preferência gerados pelo SSO melhoraram significativamente o desempenho do modelo de recompensa no Rewardbench. Nosso trabalho apresenta uma abordagem escalável para otimização de preferência, abrindo caminho para um alinhamento automatizado mais eficiente e eficaz.
English
Automated alignment develops alignment systems with minimal human
intervention. The key to automated alignment lies in providing learnable and
accurate preference signals for preference learning without human annotation.
In this paper, we introduce Self-Steering Optimization (SSO), an algorithm
that autonomously generates high-quality preference signals based on predefined
principles during iterative training, eliminating the need for manual
annotation. SSO maintains the accuracy of signals by ensuring a consistent
gap between chosen and rejected responses while keeping them both on-policy to
suit the current policy model's learning capacity. SSO can benefit the online
and offline training of the policy model, as well as enhance the training of
reward models. We validate the effectiveness of SSO with two foundation
models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy
preference signals throughout iterative training. Without any manual annotation
or external models, SSO leads to significant performance improvements across
six subjective or objective benchmarks. Besides, the preference data generated
by SSO significantly enhanced the performance of the reward model on
Rewardbench. Our work presents a scalable approach to preference optimization,
paving the way for more efficient and effective automated alignment.Summary
AI-Generated Summary