Выравнивание больших языковых моделей с помощью оптимизации самонаправления

Аннотация

Автоматизированное выравнивание разрабатывает системы выравнивания с минимальным вмешательством человека. Ключ к автоматизированному выравниванию заключается в предоставлении обучаемых и точных сигналов предпочтения для обучения предпочтениям без человеческой аннотации. В данной статье мы представляем Self-Steering Optimization (SSO), алгоритм, который автономно генерирует высококачественные сигналы предпочтения на основе заранее определенных принципов во время итеративного обучения, устраняя необходимость в ручной аннотации. SSO поддерживает точность сигналов, обеспечивая постоянный разрыв между выбранными и отклоненными ответами, сохраняя их оба в политике для соответствия текущей способности обучения модели политики. SSO может быть полезен для онлайн и офлайн обучения модели политики, а также для улучшения обучения моделей вознаграждения. Мы подтверждаем эффективность SSO с помощью двух основных моделей, Qwen2 и Llama3.1, указывая на то, что он обеспечивает точные, в политике сигналы предпочтения на протяжении итеративного обучения. Без какой-либо ручной аннотации или внешних моделей, SSO приводит к значительному улучшению производительности по шести субъективным или объективным бенчмаркам. Кроме того, данные о предпочтениях, сгенерированные SSO, значительно улучшили производительность модели вознаграждения на Rewardbench. Наша работа представляет масштабируемый подход к оптимизации предпочтений, открывая путь к более эффективному и эффективному автоматизированному выравниванию.

English

Automated alignment develops alignment systems with minimal human intervention. The key to automated alignment lies in providing learnable and accurate preference signals for preference learning without human annotation. In this paper, we introduce Self-Steering Optimization (SSO), an algorithm that autonomously generates high-quality preference signals based on predefined principles during iterative training, eliminating the need for manual annotation. SSO maintains the accuracy of signals by ensuring a consistent gap between chosen and rejected responses while keeping them both on-policy to suit the current policy model's learning capacity. SSO can benefit the online and offline training of the policy model, as well as enhance the training of reward models. We validate the effectiveness of SSO with two foundation models, Qwen2 and Llama3.1, indicating that it provides accurate, on-policy preference signals throughout iterative training. Without any manual annotation or external models, SSO leads to significant performance improvements across six subjective or objective benchmarks. Besides, the preference data generated by SSO significantly enhanced the performance of the reward model on Rewardbench. Our work presents a scalable approach to preference optimization, paving the way for more efficient and effective automated alignment.

Выравнивание больших языковых моделей с помощью оптимизации самонаправления

Aligning Large Language Models via Self-Steering Optimization

Аннотация

Support