ChatPaper.aiChatPaper

반복적 길이 정규화 직접 선호 최적화: 7B 언어 모델을 GPT-4 수준으로 개선하는 사례 연구

Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

June 17, 2024
저자: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI

초록

인간의 선호도에 언어 모델을 정렬시키는 표준 방법인 Direct Preference Optimization(DPO)은 전통적으로 오프라인 선호도에 적용되어 왔습니다. 최근 연구에 따르면, 훈련된 보상 모델에 의해 라벨링된 온라인 선호도를 사용한 반복적 훈련이 DPO에 이점을 제공한다고 합니다. 본 연구에서는 기본적인 반복적 DPO의 한계를 발견했는데, 응답 품질이 개선될수록 장황함이 증가할 수 있다는 점입니다. 이를 해결하기 위해, 응답 길이에 패널티를 부여하는 반복적 길이 정규화 DPO(iLR-DPO)를 도입했습니다. 실험 결과, iLR-DPO는 7B 모델이 장황함을 증가시키지 않으면서 GPT-4와 동등한 성능을 발휘하도록 향상시킬 수 있음을 보여줍니다. 구체적으로, 우리의 7B 모델은 AlpacaEval 2.0에서 GPT-4 Preview 대비 50.5%의 길이 제어 승률을 달성했으며, MT-Bench, Arena-Hard, OpenLLM Leaderboard를 포함한 표준 벤치마크에서도 우수한 성능을 보였습니다. 이러한 결과는 반복적 DPO가 인간 피드백에 언어 모델을 정렬시키는 데 효과적임을 입증합니다.
English
Direct Preference Optimization (DPO), a standard method for aligning language models with human preferences, is traditionally applied to offline preferences. Recent studies show that DPO benefits from iterative training with online preferences labeled by a trained reward model. In this work, we identify a pitfall of vanilla iterative DPO - improved response quality can lead to increased verbosity. To address this, we introduce iterative length-regularized DPO (iLR-DPO) to penalize response length. Our empirical results show that iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win rate against GPT-4 Preview on AlpacaEval 2.0, and excels across standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard. These results demonstrate the effectiveness of iterative DPO in aligning language models with human feedback.

Summary

AI-Generated Summary

PDF131December 2, 2024