대규모 언어 모델에서 선호도 모델링을 위한 딥 베이지안 액티브 러닝
Deep Bayesian Active Learning for Preference Modeling in Large Language Models
June 14, 2024
저자: Luckeciano C. Melo, Panagiotis Tigas, Alessandro Abate, Yarin Gal
cs.AI
초록
대형 언어 모델(LLM)의 행동을 조종하기 위해 인간의 선호도를 활용하는 것은 최근 몇 년 동안 상당한 성공을 거두었습니다. 그러나 데이터 선택과 라벨링은 여전히 이러한 시스템의 병목 현상으로 남아 있으며, 특히 대규모로 확장할 때 더욱 그러합니다. 따라서 인간 피드백을 획득하기 위해 가장 정보성이 높은 지점을 선택하는 것은 선호도 라벨링의 비용을 상당히 줄이고 LLM의 추가 발전을 촉진할 수 있습니다. 베이지안 액티브 러닝은 이러한 문제를 해결하기 위한 원칙적인 프레임워크를 제공하며, 다양한 환경에서 주목할 만한 성공을 거두었습니다. 그러나 선호도 모델링에 이를 적용하려는 이전의 시도들은 그러한 기대를 충족시키지 못했습니다. 본 연구에서는 순진한 인식론적 불확실성 추정이 중복 샘플의 획득으로 이어진다는 점을 확인했습니다. 우리는 이를 해결하기 위해 베이지안 액티브 러너 for 선호도 모델링(BAL-PM)을 제안합니다. 이는 선호도 모델에 따른 높은 인식론적 불확실성 지점을 타겟팅할 뿐만 아니라, 사용된 LLM이 생성한 특징 공간에서 획득된 프롬프트 분포의 엔트로피를 최대화하려는 새로운 확률적 획득 정책입니다. 특히, 우리의 실험은 BAL-PM이 두 가지 인기 있는 인간 선호도 데이터셋에서 33%에서 68% 더 적은 선호도 라벨을 필요로 하며, 이전의 확률적 베이지안 획득 정책들을 능가함을 보여줍니다.
English
Leveraging human preferences for steering the behavior of Large Language
Models (LLMs) has demonstrated notable success in recent years. Nonetheless,
data selection and labeling are still a bottleneck for these systems,
particularly at large scale. Hence, selecting the most informative points for
acquiring human feedback may considerably reduce the cost of preference
labeling and unleash the further development of LLMs. Bayesian Active Learning
provides a principled framework for addressing this challenge and has
demonstrated remarkable success in diverse settings. However, previous attempts
to employ it for Preference Modeling did not meet such expectations. In this
work, we identify that naive epistemic uncertainty estimation leads to the
acquisition of redundant samples. We address this by proposing the Bayesian
Active Learner for Preference Modeling (BAL-PM), a novel stochastic acquisition
policy that not only targets points of high epistemic uncertainty according to
the preference model but also seeks to maximize the entropy of the acquired
prompt distribution in the feature space spanned by the employed LLM. Notably,
our experiments demonstrate that BAL-PM requires 33% to 68% fewer preference
labels in two popular human preference datasets and exceeds previous stochastic
Bayesian acquisition policies.Summary
AI-Generated Summary