Alineando Modelos de Lenguaje Grandes a través de la Optimización Autoguiada
Aligning Large Language Models via Self-Steering Optimization
October 22, 2024
Autores: Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin
cs.AI
Resumen
El alineamiento automatizado desarrolla sistemas de alineamiento con mínima intervención humana. La clave del alineamiento automatizado radica en proporcionar señales de preferencia aprendibles y precisas para el aprendizaje de preferencias sin anotación humana. En este documento, presentamos la Optimización de Auto-Dirección (SSO, por sus siglas en inglés), un algoritmo que genera de forma autónoma señales de preferencia de alta calidad basadas en principios predefinidos durante el entrenamiento iterativo, eliminando la necesidad de anotación manual. SSO mantiene la precisión de las señales al garantizar una brecha consistente entre las respuestas elegidas y rechazadas, manteniéndolas ambas en política para adaptarse a la capacidad de aprendizaje del modelo de política actual. SSO puede beneficiar el entrenamiento en línea y fuera de línea del modelo de política, así como mejorar el entrenamiento de modelos de recompensa. Validamos la efectividad de SSO con dos modelos fundamentales, Qwen2 y Llama3.1, indicando que proporciona señales de preferencia precisas y en política a lo largo del entrenamiento iterativo. Sin anotación manual ni modelos externos, SSO conlleva mejoras significativas en el rendimiento en seis referencias subjetivas u objetivas. Además, los datos de preferencia generados por SSO mejoraron significativamente el rendimiento del modelo de recompensa en Rewardbench. Nuestro trabajo presenta un enfoque escalable para la optimización de preferencias, allanando el camino para un alineamiento automatizado más eficiente y efectivo.
English
Automated alignment develops alignment systems with minimal human
intervention. The key to automated alignment lies in providing learnable and
accurate preference signals for preference learning without human annotation.
In this paper, we introduce Self-Steering Optimization (SSO), an algorithm
that autonomously generates high-quality preference signals based on predefined
principles during iterative training, eliminating the need for manual
annotation. SSO maintains the accuracy of signals by ensuring a consistent
gap between chosen and rejected responses while keeping them both on-policy to
suit the current policy model's learning capacity. SSO can benefit the online
and offline training of the policy model, as well as enhance the training of
reward models. We validate the effectiveness of SSO with two foundation
models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy
preference signals throughout iterative training. Without any manual annotation
or external models, SSO leads to significant performance improvements across
six subjective or objective benchmarks. Besides, the preference data generated
by SSO significantly enhanced the performance of the reward model on
Rewardbench. Our work presents a scalable approach to preference optimization,
paving the way for more efficient and effective automated alignment.Summary
AI-Generated Summary