ChatPaper.aiChatPaper

Оптимизация прямого предпочтения с использованием разреженных ограничений на уровне признаков.

Direct Preference Optimization Using Sparse Feature-Level Constraints

November 12, 2024
Авторы: Qingyu Yin, Chak Tou Leong, Hongbo Zhang, Minjun Zhu, Hanqi Yan, Qiang Zhang, Yulan He, Wenjie Li, Jun Wang, Yue Zhang, Linyi Yang
cs.AI

Аннотация

Выравнивание больших языковых моделей (LLM) с предпочтениями человека остается одним из ключевых вызовов. В то время как техники посттренировочного обучения, такие как Обучение с подкреплением по обратной связи от человека (RLHF) и Прямая оптимизация предпочтений (DPO), достигли значительного успеха, они часто вносят вычислительные неэффективности и нестабильность обучения. В данной статье мы предлагаем метод Оптимизации предпочтений с ограничением на уровне признаков (FPO), новаторский метод, разработанный для упрощения процесса выравнивания, обеспечивая при этом стабильность. FPO использует предварительно обученные разреженные автоэнкодеры (SAE) и вводит ограничения на уровне признаков, что позволяет эффективное выравнивание с учетом разреженности. Наш подход обеспечивает эффективность за счет использования разреженных признаков, активированных в хорошо обученном разреженном автоэнкодере, и качества последовательного дивергенции Кульбака-Лейблера за счет использования оффлайн-ссылки на уровне признаков. Экспериментальные результаты на эталонных наборах данных показывают, что FPO достигает абсолютного улучшения победного коэффициента на 5,08% при значительно более низкой вычислительной стоимости по сравнению с передовыми базовыми моделями, что делает его многообещающим решением для эффективного и управляемого выравнивания LLM.
English
The alignment of large language models (LLMs) with human preferences remains a key challenge. While post-training techniques like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have achieved notable success, they often introduce computational inefficiencies and training instability. In this paper, we propose Feature-level constrained Preference Optimization (FPO), a novel method designed to simplify the alignment process while ensuring stability. FPO leverages pre-trained Sparse Autoencoders (SAEs) and introduces feature-level constraints, allowing for efficient, sparsity-enforced alignment. Our approach enjoys efficiency by using sparse features activated in a well-trained sparse autoencoder and the quality of sequential KL divergence by using the feature-level offline reference. Experimental results on benchmark datasets demonstrate that FPO achieves a 5.08% absolute improvement in win rate with much lower computational cost compared to state-of-the-art baselines, making it a promising solution for efficient and controllable LLM alignments.

Summary

AI-Generated Summary

PDF163November 14, 2024