ChatPaper.aiChatPaper

スパースな特徴レベルの制約を使用した直接的な選好最適化

Direct Preference Optimization Using Sparse Feature-Level Constraints

November 12, 2024
著者: Qingyu Yin, Chak Tou Leong, Hongbo Zhang, Minjun Zhu, Hanqi Yan, Qiang Zhang, Yulan He, Wenjie Li, Jun Wang, Yue Zhang, Linyi Yang
cs.AI

要旨

大規模言語モデル(LLMs)を人間の好みと整合させることは、依然として重要な課題です。強化学習からの人間フィードバック(RLHF)や直接的な好み最適化(DPO)などの事後トレーニング技術は、注目すべき成功を収めていますが、しばしば計算効率の低下やトレーニングの不安定さをもたらします。本論文では、安定性を確保しながら整合プロセスを簡素化することを目的とした、特徴レベル制約付き好み最適化(FPO)という新しい手法を提案します。FPOは、事前にトレーニングされた疎なオートエンコーダ(SAEs)を活用し、特徴レベルの制約を導入することで、効率的で疎な整合を可能にします。我々の手法は、トレーニングが十分に行われた疎なオートエンコーダで活性化された疎な特徴を使用することにより効率性を享受し、特徴レベルのオフライン参照を使用することで連続KLダイバージェンスの品質を確保します。ベンチマークデータセット上の実験結果は、FPOが、最先端のベースラインと比較して、計算コストがはるかに低い状態で勝率を5.08%絶対改善し、効率的かつコントロール可能なLLMの整合のための有望な解決策であることを示しています。
English
The alignment of large language models (LLMs) with human preferences remains a key challenge. While post-training techniques like Reinforcement Learning from Human Feedback (RLHF) and Direct Preference Optimization (DPO) have achieved notable success, they often introduce computational inefficiencies and training instability. In this paper, we propose Feature-level constrained Preference Optimization (FPO), a novel method designed to simplify the alignment process while ensuring stability. FPO leverages pre-trained Sparse Autoencoders (SAEs) and introduces feature-level constraints, allowing for efficient, sparsity-enforced alignment. Our approach enjoys efficiency by using sparse features activated in a well-trained sparse autoencoder and the quality of sequential KL divergence by using the feature-level offline reference. Experimental results on benchmark datasets demonstrate that FPO achieves a 5.08% absolute improvement in win rate with much lower computational cost compared to state-of-the-art baselines, making it a promising solution for efficient and controllable LLM alignments.

Summary

AI-Generated Summary

PDF163November 14, 2024