ChatPaper.aiChatPaper

Iterative Längenregulierung bei direkter Präferenzoptimierung: Eine Fallstudie zur Verbesserung von 7B-Sprachmodellen auf das Niveau von GPT-4.

Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

June 17, 2024
Autoren: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang
cs.AI

Zusammenfassung

Die Direkte Präferenzoptimierung (DPO), eine Standardmethode zur Ausrichtung von Sprachmodellen an menschlichen Präferenzen, wird traditionell auf Offline-Präferenzen angewendet. Aktuelle Studien zeigen, dass DPO von iterativem Training mit Online-Präferenzen profitiert, die von einem trainierten Belohnungsmodell gekennzeichnet sind. In dieser Arbeit identifizieren wir eine Fallstrick von herkömmlicher iterativer DPO - eine verbesserte Antwortqualität kann zu erhöhter Wortanzahl führen. Um dies zu lösen, führen wir die iterativ längenregulierte DPO (iLR-DPO) ein, um die Antwortlänge zu bestrafen. Unsere empirischen Ergebnisse zeigen, dass iLR-DPO ein 7B-Modell verbessern kann, um auf Augenhöhe mit GPT-4 zu performen, ohne die Wortanzahl zu erhöhen. Speziell erreicht unser 7B-Modell eine 50,5%ige Gewinnrate unter Längenkontrolle gegenüber GPT-4 Preview in AlpacaEval 2.0 und übertrifft Standard-Benchmarks wie MT-Bench, Arena-Hard und OpenLLM Leaderboard. Diese Ergebnisse zeigen die Wirksamkeit von iterativer DPO bei der Ausrichtung von Sprachmodellen an menschlichem Feedback.
English
Direct Preference Optimization (DPO), a standard method for aligning language models with human preferences, is traditionally applied to offline preferences. Recent studies show that DPO benefits from iterative training with online preferences labeled by a trained reward model. In this work, we identify a pitfall of vanilla iterative DPO - improved response quality can lead to increased verbosity. To address this, we introduce iterative length-regularized DPO (iLR-DPO) to penalize response length. Our empirical results show that iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing verbosity. Specifically, our 7B model achieves a 50.5% length-controlled win rate against GPT-4 Preview on AlpacaEval 2.0, and excels across standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard. These results demonstrate the effectiveness of iterative DPO in aligning language models with human feedback.

Summary

AI-Generated Summary

PDF131December 2, 2024