BPO: 행동 LLM의 근접성 준수를 통한 온라인 선호 학습의 고성능화
BPO: Supercharging Online Preference Learning by Adhering to the Proximity of Behavior LLM
June 18, 2024
저자: Wenda Xu, Jiachen Li, William Yang Wang, Lei Li
cs.AI
초록
선호도 기반 직접 정렬(Direct Alignment from Preferences, DAP)은 사전 수집된 오프라인 선호도 데이터셋을 통해 대규모 언어 모델(LLMs)을 인간의 요구사항에 맞추는 유망한 패러다임으로 부상하고 있습니다. 최근 연구들은 기존의 오프라인 DAP 방법이 온라인 훈련 샘플로부터 직접적인 이점을 얻을 수 있음을 보여주지만, 우리는 온라인 훈련의 힘을 완전히 활용하기 위해 특정 온라인 DAP 알고리즘의 개발 필요성을 강조합니다. 특히, 학습된 LLM은 훈련 샘플을 수집하는 행동 LLM의 근접성을 준수해야 한다는 점을 확인했습니다. 이를 위해, 우리는 행동 LLM 근접성에서의 선호도 최적화(Online Preference Optimization in proximity to the Behavior LLM, BPO)를 제안하며, LLM 정렬을 위한 적절한 신뢰 영역 구축의 중요성을 강조합니다.
우리는 다양한 DAP 방법과 통합하여 광범위한 실험을 수행함으로써 우리 접근법의 효과성과 적용 가능성을 검증했습니다. 동일한 양의 선호도 데이터로 훈련할 때, 다양한 작업에서 상당한 성능 향상을 이끌어냈습니다. 단 하나의 추가 데이터 수집 단계만 도입하더라도, 우리의 온라인 BPO는 TL;DR 작업에서 오프라인 DAP 기준선을 72.0%에서 80.2%로, Anthropic Helpfulness 작업에서는 82.2%에서 89.1%로 향상시켰으며, 이는 인간 참조 텍스트 대비 승률 기준입니다.
English
Direct alignment from preferences (DAP) has emerged as a promising paradigm
for aligning large language models (LLMs) to human desiderata from
pre-collected, offline preference datasets. While recent studies indicate that
existing offline DAP methods can directly benefit from online training samples,
we highlight the need to develop specific online DAP algorithms to fully
harness the power of online training. Specifically, we identify that the
learned LLM should adhere to the proximity of the behavior LLM, which collects
the training samples. To this end, we propose online Preference Optimization in
proximity to the Behavior LLM (BPO), emphasizing the importance of constructing
a proper trust region for LLM alignment.
We conduct extensive experiments to validate the effectiveness and
applicability of our approach by integrating it with various DAP methods,
resulting in significant performance improvements across a wide range of tasks
when training with the same amount of preference data. Even when only
introducing one additional data collection phase, our online BPO improves its
offline DAP baseline from 72.0% to 80.2% on TL;DR and from 82.2% to 89.1% on
Anthropic Helpfulness in terms of win rate against human reference text.Summary
AI-Generated Summary