ChatPaper.aiChatPaper

大規模言語モデルにおける選好モデリングのための深層ベイジアン能動学習

Deep Bayesian Active Learning for Preference Modeling in Large Language Models

June 14, 2024
著者: Luckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal
cs.AI

要旨

大規模言語モデル(LLM)の行動を制御するために人間の選好を活用することは、近年顕著な成功を収めています。しかしながら、データの選択とラベル付けは依然としてこれらのシステムのボトルネックであり、特に大規模な場合にはその傾向が顕著です。したがって、人間のフィードバックを取得するために最も有益なポイントを選択することは、選好ラベル付けのコストを大幅に削減し、LLMのさらなる発展を促す可能性があります。ベイジアンアクティブラーニングは、この課題に対処するための原則的なフレームワークを提供し、さまざまな設定で顕著な成功を収めています。しかし、選好モデリングにこれを適用する以前の試みは、そのような期待に応えることができませんでした。本研究では、単純な認識的不確実性の推定が冗長なサンプルの取得につながることを明らかにします。これを解決するために、選好モデリングのためのベイジアンアクティブラーニング(BAL-PM)を提案します。これは、選好モデルに基づいて認識的不確実性が高いポイントをターゲットとするだけでなく、使用するLLMが生成する特徴空間において取得されたプロンプト分布のエントロピーを最大化することを目指す新しい確率的取得ポリシーです。特に、我々の実験では、BAL-PMが2つの人気のある人間の選好データセットにおいて33%から68%少ない選好ラベルを必要とし、以前の確率的ベイジアン取得ポリシーを上回ることを示しています。
English
Leveraging human preferences for steering the behavior of Large Language Models (LLMs) has demonstrated notable success in recent years. Nonetheless, data selection and labeling are still a bottleneck for these systems, particularly at large scale. Hence, selecting the most informative points for acquiring human feedback may considerably reduce the cost of preference labeling and unleash the further development of LLMs. Bayesian Active Learning provides a principled framework for addressing this challenge and has demonstrated remarkable success in diverse settings. However, previous attempts to employ it for Preference Modeling did not meet such expectations. In this work, we identify that naive epistemic uncertainty estimation leads to the acquisition of redundant samples. We address this by proposing the Bayesian Active Learner for Preference Modeling (BAL-PM), a novel stochastic acquisition policy that not only targets points of high epistemic uncertainty according to the preference model but also seeks to maximize the entropy of the acquired prompt distribution in the feature space spanned by the employed LLM. Notably, our experiments demonstrate that BAL-PM requires 33% to 68% fewer preference labels in two popular human preference datasets and exceeds previous stochastic Bayesian acquisition policies.

Summary

AI-Generated Summary

PDF21December 6, 2024