Optimisation des préférences de récompense pondérée pour la fusion implicite de modèles
Weighted-Reward Preference Optimization for Implicit Model Fusion
December 4, 2024
Auteurs: Ziyi Yang, Fanqi Wan, Longguang Zhong, Tianyuan Shi, Xiaojun Quan
cs.AI
Résumé
En fusionnant des LLM open-source hétérogènes avec des architectures et des tailles variables, il est possible d'intégrer les forces de différents modèles. Cependant, les méthodes de fusion existantes sont confrontées à des défis importants, tels que l'alignement du vocabulaire et la fusion des matrices de distribution. Ces procédures sont non seulement complexes, mais aussi susceptibles d'introduire du bruit et des erreurs. Dans cet article, nous proposons une méthode de fusion implicite, l'Optimisation des Préférences Pondérées des Récompenses (WRPO), qui exploite l'optimisation des préférences entre les LLM sources et le LLM cible pour transférer efficacement leurs capacités. WRPO élimine le besoin d'alignement du vocabulaire et de fusion de matrices et peut être mis à l'échelle de manière efficace pour accueillir divers LLM. Pour résoudre les écarts distributionnels entre les LLM sources et cibles, WRPO introduit une stratégie d'adaptation progressive qui déplace progressivement la dépendance sur les exemples préférés du LLM cible vers les LLM sources. Des expériences approfondies sur les bancs d'essai MT-Bench, AlpacaEval-2 et Arena-Hard montrent que WRPO surpasse systématiquement les méthodes existantes de fusion des connaissances et diverses lignes de base de fine-tuning. Lorsqu'appliqué au modèle cible LLaMA3-8B-Instruct, WRPO atteint un taux de réussite contrôlé par la longueur de 55,9% contre GPT-4-Preview-1106 sur AlpacaEval-2 et un taux de réussite de 46,2% contre GPT-4-0314 sur Arena-Hard. Notre code est disponible sur https://github.com/SLIT-AI/WRPO.
English
While fusing heterogeneous open-source LLMs with varying architectures and
sizes can potentially integrate the strengths of different models, existing
fusion methods face significant challenges, such as vocabulary alignment and
merging distribution matrices. These procedures are not only complex but also
prone to introducing noise and errors. In this paper, we propose an implicit
fusion method, Weighted-Reward Preference Optimization (WRPO), which leverages
preference optimization between the source LLMs and the target LLM to transfer
their capabilities effectively. WRPO eliminates the need for vocabulary
alignment and matrix fusion and can be efficiently scaled to accommodate
various LLMs. To address distributional deviations between the source and
target LLMs, WRPO introduces a progressive adaptation strategy that gradually
shifts reliance on preferred examples from the target LLM to the source LLMs.
Extensive experiments on the MT-Bench, AlpacaEval-2, and Arena-Hard benchmarks
demonstrate that WRPO consistently outperforms existing knowledge fusion
methods and various fine-tuning baselines. When applied to LLaMA3-8B-Instruct
as the target model, WRPO achieves a length-controlled win rate of 55.9%
against GPT-4-Preview-1106 on AlpacaEval-2 and a win rate of 46.2% against
GPT-4-0314 on Arena-Hard. Our code is available at
https://github.com/SLIT-AI/WRPO.Summary
AI-Generated Summary