ChatPaper.aiChatPaper

Gewichtete Belohnungspräferenzoptimierung für die implizite Modellfusion

Weighted-Reward Preference Optimization for Implicit Model Fusion

December 4, 2024
Autoren: Ziyi Yang, Fanqi Wan, Longguang Zhong, Tianyuan Shi, Xiaojun Quan
cs.AI

Zusammenfassung

Durch die Fusion heterogener Open-Source-LLMs mit unterschiedlichen Architekturen und Größen können potenziell die Stärken verschiedener Modelle integriert werden. Bestehende Fusionsmethoden stehen jedoch vor erheblichen Herausforderungen, wie der Vokabularausrichtung und der Verschmelzung von Verteilungsmatrizen. Diese Verfahren sind nicht nur komplex, sondern neigen auch dazu, Rauschen und Fehler einzuführen. In diesem Artikel schlagen wir eine implizite Fusionsmethode, die Weighted-Reward Preference Optimization (WRPO), vor, die die Präferenzoptimierung zwischen den Quell-LLMs und dem Ziel-LLM nutzt, um ihre Fähigkeiten effektiv zu übertragen. WRPO beseitigt die Notwendigkeit der Vokabularausrichtung und der Matrixfusion und kann effizient skaliert werden, um verschiedene LLMs aufzunehmen. Um Verteilungsabweichungen zwischen den Quell- und Ziel-LLMs anzugehen, führt WRPO eine progressive Adaptionsstrategie ein, die allmählich die Abhängigkeit von bevorzugten Beispielen des Ziel-LLMs auf die Quell-LLMs verschiebt. Umfangreiche Experimente auf den Benchmarks MT-Bench, AlpacaEval-2 und Arena-Hard zeigen, dass WRPO konsistent bessere Leistungen erbringt als bestehende Wissensfusionsmethoden und verschiedene Feinabstimmungs-Baselines. Bei Anwendung auf das Zielmodell LLaMA3-8B-Instruct erzielt WRPO eine längenkontrollierte Gewinnrate von 55,9% gegenüber GPT-4-Preview-1106 auf AlpacaEval-2 und eine Gewinnrate von 46,2% gegenüber GPT-4-0314 auf Arena-Hard. Unser Code ist verfügbar unter https://github.com/SLIT-AI/WRPO.
English
While fusing heterogeneous open-source LLMs with varying architectures and sizes can potentially integrate the strengths of different models, existing fusion methods face significant challenges, such as vocabulary alignment and merging distribution matrices. These procedures are not only complex but also prone to introducing noise and errors. In this paper, we propose an implicit fusion method, Weighted-Reward Preference Optimization (WRPO), which leverages preference optimization between the source LLMs and the target LLM to transfer their capabilities effectively. WRPO eliminates the need for vocabulary alignment and matrix fusion and can be efficiently scaled to accommodate various LLMs. To address distributional deviations between the source and target LLMs, WRPO introduces a progressive adaptation strategy that gradually shifts reliance on preferred examples from the target LLM to the source LLMs. Extensive experiments on the MT-Bench, AlpacaEval-2, and Arena-Hard benchmarks demonstrate that WRPO consistently outperforms existing knowledge fusion methods and various fine-tuning baselines. When applied to LLaMA3-8B-Instruct as the target model, WRPO achieves a length-controlled win rate of 55.9% against GPT-4-Preview-1106 on AlpacaEval-2 and a win rate of 46.2% against GPT-4-0314 on Arena-Hard. Our code is available at https://github.com/SLIT-AI/WRPO.

Summary

AI-Generated Summary

PDF122December 5, 2024