Optimisation des préférences de récompense pondérée pour la fusion implicite de modèles

papers.abstract

En fusionnant des LLM open-source hétérogènes avec des architectures et des tailles variables, il est possible d'intégrer les forces de différents modèles. Cependant, les méthodes de fusion existantes sont confrontées à des défis importants, tels que l'alignement du vocabulaire et la fusion des matrices de distribution. Ces procédures sont non seulement complexes, mais aussi susceptibles d'introduire du bruit et des erreurs. Dans cet article, nous proposons une méthode de fusion implicite, l'Optimisation des Préférences Pondérées des Récompenses (WRPO), qui exploite l'optimisation des préférences entre les LLM sources et le LLM cible pour transférer efficacement leurs capacités. WRPO élimine le besoin d'alignement du vocabulaire et de fusion de matrices et peut être mis à l'échelle de manière efficace pour accueillir divers LLM. Pour résoudre les écarts distributionnels entre les LLM sources et cibles, WRPO introduit une stratégie d'adaptation progressive qui déplace progressivement la dépendance sur les exemples préférés du LLM cible vers les LLM sources. Des expériences approfondies sur les bancs d'essai MT-Bench, AlpacaEval-2 et Arena-Hard montrent que WRPO surpasse systématiquement les méthodes existantes de fusion des connaissances et diverses lignes de base de fine-tuning. Lorsqu'appliqué au modèle cible LLaMA3-8B-Instruct, WRPO atteint un taux de réussite contrôlé par la longueur de 55,9% contre GPT-4-Preview-1106 sur AlpacaEval-2 et un taux de réussite de 46,2% contre GPT-4-0314 sur Arena-Hard. Notre code est disponible sur https://github.com/SLIT-AI/WRPO.

English

While fusing heterogeneous open-source LLMs with varying architectures and sizes can potentially integrate the strengths of different models, existing fusion methods face significant challenges, such as vocabulary alignment and merging distribution matrices. These procedures are not only complex but also prone to introducing noise and errors. In this paper, we propose an implicit fusion method, Weighted-Reward Preference Optimization (WRPO), which leverages preference optimization between the source LLMs and the target LLM to transfer their capabilities effectively. WRPO eliminates the need for vocabulary alignment and matrix fusion and can be efficiently scaled to accommodate various LLMs. To address distributional deviations between the source and target LLMs, WRPO introduces a progressive adaptation strategy that gradually shifts reliance on preferred examples from the target LLM to the source LLMs. Extensive experiments on the MT-Bench, AlpacaEval-2, and Arena-Hard benchmarks demonstrate that WRPO consistently outperforms existing knowledge fusion methods and various fine-tuning baselines. When applied to LLaMA3-8B-Instruct as the target model, WRPO achieves a length-controlled win rate of 55.9% against GPT-4-Preview-1106 on AlpacaEval-2 and a win rate of 46.2% against GPT-4-0314 on Arena-Hard. Our code is available at https://github.com/SLIT-AI/WRPO.

Optimisation des préférences de récompense pondérée pour la fusion implicite de modèles

Weighted-Reward Preference Optimization for Implicit Model Fusion

papers.abstract

Support