ChatPaper.aiChatPaper

Alineando Modelos de Lenguaje Grandes a través de la Optimización Autoguiada

Aligning Large Language Models via Self-Steering Optimization

October 22, 2024
Autores: Hao Xiang, Bowen Yu, Hongyu Lin, Keming Lu, Yaojie Lu, Xianpei Han, Le Sun, Jingren Zhou, Junyang Lin
cs.AI

Resumen

El alineamiento automatizado desarrolla sistemas de alineamiento con mínima intervención humana. La clave del alineamiento automatizado radica en proporcionar señales de preferencia aprendibles y precisas para el aprendizaje de preferencias sin anotación humana. En este documento, presentamos la Optimización de Auto-Dirección (SSO, por sus siglas en inglés), un algoritmo que genera de forma autónoma señales de preferencia de alta calidad basadas en principios predefinidos durante el entrenamiento iterativo, eliminando la necesidad de anotación manual. SSO mantiene la precisión de las señales al garantizar una brecha consistente entre las respuestas elegidas y rechazadas, manteniéndolas ambas en política para adaptarse a la capacidad de aprendizaje del modelo de política actual. SSO puede beneficiar el entrenamiento en línea y fuera de línea del modelo de política, así como mejorar el entrenamiento de modelos de recompensa. Validamos la efectividad de SSO con dos modelos fundamentales, Qwen2 y Llama3.1, indicando que proporciona señales de preferencia precisas y en política a lo largo del entrenamiento iterativo. Sin anotación manual ni modelos externos, SSO conlleva mejoras significativas en el rendimiento en seis referencias subjetivas u objetivas. Además, los datos de preferencia generados por SSO mejoraron significativamente el rendimiento del modelo de recompensa en Rewardbench. Nuestro trabajo presenta un enfoque escalable para la optimización de preferencias, allanando el camino para un alineamiento automatizado más eficiente y efectivo.
English
Automated alignment develops alignment systems with minimal human intervention. The key to automated alignment lies in providing learnable and accurate preference signals for preference learning without human annotation. In this paper, we introduce Self-Steering Optimization (SSO), an algorithm that autonomously generates high-quality preference signals based on predefined principles during iterative training, eliminating the need for manual annotation. SSO maintains the accuracy of signals by ensuring a consistent gap between chosen and rejected responses while keeping them both on-policy to suit the current policy model's learning capacity. SSO can benefit the online and offline training of the policy model, as well as enhance the training of reward models. We validate the effectiveness of SSO with two foundation models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy preference signals throughout iterative training. Without any manual annotation or external models, SSO leads to significant performance improvements across six subjective or objective benchmarks. Besides, the preference data generated by SSO significantly enhanced the performance of the reward model on Rewardbench. Our work presents a scalable approach to preference optimization, paving the way for more efficient and effective automated alignment.

Summary

AI-Generated Summary

PDF233November 16, 2024