Allineare i Grandi Modelli Linguistici tramite Ottimizzazione Auto-Diretta

Abstract

L'allineamento automatizzato sviluppa sistemi di allineamento con minima intervento umano. La chiave dell'allineamento automatizzato risiede nel fornire segnali di preferenza apprendibili e accurati per l'apprendimento delle preferenze senza annotazioni umane. In questo articolo, presentiamo l'ottimizzazione autoguidata (SSO), un algoritmo che genera autonomamente segnali di preferenza di alta qualità basati su principi predefiniti durante l'addestramento iterativo, eliminando la necessità di annotazioni manuali. SSO mantiene l'accuratezza dei segnali garantendo un divario costante tra risposte scelte e respinte mantenendole entrambe in politica per adattarsi alla capacità di apprendimento del modello di politica attuale. SSO può beneficiare dell'addestramento online e offline del modello di politica, nonché migliorare l'addestramento dei modelli di ricompensa. Convalidiamo l'efficacia di SSO con due modelli fondamentali, Qwen2 e Llama3.1, indicando che fornisce segnali di preferenza accurati e in politica durante l'addestramento iterativo. Senza alcuna annotazione manuale o modelli esterni, SSO porta a significativi miglioramenti delle prestazioni su sei benchmark soggettivi o obiettivi. Inoltre, i dati di preferenza generati da SSO hanno notevolmente migliorato le prestazioni del modello di ricompensa su Rewardbench. Il nostro lavoro presenta un approccio scalabile all'ottimizzazione delle preferenze, aprendo la strada a un allineamento automatizzato più efficiente ed efficace.

English

Automated alignment develops alignment systems with minimal human intervention. The key to automated alignment lies in providing learnable and accurate preference signals for preference learning without human annotation. In this paper, we introduce Self-Steering Optimization (SSO), an algorithm that autonomously generates high-quality preference signals based on predefined principles during iterative training, eliminating the need for manual annotation. SSO maintains the accuracy of signals by ensuring a consistent gap between chosen and rejected responses while keeping them both on-policy to suit the current policy model's learning capacity. SSO can benefit the online and offline training of the policy model, as well as enhance the training of reward models. We validate the effectiveness of SSO with two foundation models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy preference signals throughout iterative training. Without any manual annotation or external models, SSO leads to significant performance improvements across six subjective or objective benchmarks. Besides, the preference data generated by SSO significantly enhanced the performance of the reward model on Rewardbench. Our work presents a scalable approach to preference optimization, paving the way for more efficient and effective automated alignment.

Allineare i Grandi Modelli Linguistici tramite Ottimizzazione Auto-Diretta

Aligning Large Language Models via Self-Steering Optimization

Abstract

Summary

Support

Support