ChatPaper.aiChatPaper

暗黙のモデル融合のための重み付け報酬選好最適化

Weighted-Reward Preference Optimization for Implicit Model Fusion

December 4, 2024
著者: Ziyi Yang, Fanqi Wan, Longguang Zhong, Tianyuan Shi, Xiaojun Quan
cs.AI

要旨

異種のオープンソースLLM(Large Language Model)を統合することは、異なるアーキテクチャとサイズの強みを組み合わせる可能性がありますが、既存の統合方法は語彙の整列や分布行列のマージングなど、重要な課題に直面しています。これらの手順は複雑であり、ノイズやエラーを導入しやすいです。本論文では、Weighted-Reward Preference Optimization(WRPO)という暗黙の統合方法を提案し、ソースLLMとターゲットLLMの間での適切な能力の移転に役立てます。WRPOは語彙の整列や行列の統合を不要とし、さまざまなLLMに効率的にスケーリングできます。ソースとターゲットLLM間の分布のずれに対処するため、WRPOは、徐々にターゲットLLMからソースLLMへの好ましい例への依存を移行させる進行的適応戦略を導入します。MT-Bench、AlpacaEval-2、Arena-Hardのベンチマークでの幅広い実験により、WRPOが既存の知識統合方法やさまざまなファインチューニングのベースラインを一貫して上回ることが示されました。ターゲットモデルとしてLLaMA3-8B-Instructを適用した場合、WRPOはAlpacaEval-2においてGPT-4-Preview-1106に対して55.9%の勝率、Arena-HardにおいてGPT-4-0314に対して46.2%の勝率を達成します。当該コードはhttps://github.com/SLIT-AI/WRPO で入手可能です。
English
While fusing heterogeneous open-source LLMs with varying architectures and sizes can potentially integrate the strengths of different models, existing fusion methods face significant challenges, such as vocabulary alignment and merging distribution matrices. These procedures are not only complex but also prone to introducing noise and errors. In this paper, we propose an implicit fusion method, Weighted-Reward Preference Optimization (WRPO), which leverages preference optimization between the source LLMs and the target LLM to transfer their capabilities effectively. WRPO eliminates the need for vocabulary alignment and matrix fusion and can be efficiently scaled to accommodate various LLMs. To address distributional deviations between the source and target LLMs, WRPO introduces a progressive adaptation strategy that gradually shifts reliance on preferred examples from the target LLM to the source LLMs. Extensive experiments on the MT-Bench, AlpacaEval-2, and Arena-Hard benchmarks demonstrate that WRPO consistently outperforms existing knowledge fusion methods and various fine-tuning baselines. When applied to LLaMA3-8B-Instruct as the target model, WRPO achieves a length-controlled win rate of 55.9% against GPT-4-Preview-1106 on AlpacaEval-2 and a win rate of 46.2% against GPT-4-0314 on Arena-Hard. Our code is available at https://github.com/SLIT-AI/WRPO.

Summary

AI-Generated Summary

PDF122December 5, 2024