ChatPaper.aiChatPaper

Otimização de Preferência de Recompensa Ponderada para Fusão Implícita de Modelos

Weighted-Reward Preference Optimization for Implicit Model Fusion

December 4, 2024
Autores: Ziyi Yang, Fanqi Wan, Longguang Zhong, Tianyuan Shi, Xiaojun Quan
cs.AI

Resumo

Ao fundir LLMs de código aberto heterogêneos com arquiteturas e tamanhos variados, é possível integrar os pontos fortes de diferentes modelos. No entanto, os métodos de fusão existentes enfrentam desafios significativos, como alinhamento de vocabulário e fusão de matrizes de distribuição. Esses procedimentos são complexos e propensos a introduzir ruído e erros. Neste artigo, propomos um método de fusão implícita, Otimização de Preferência de Recompensa Ponderada (WRPO), que aproveita a otimização de preferência entre os LLMs de origem e o LLM de destino para transferir suas capacidades de forma eficaz. O WRPO elimina a necessidade de alinhamento de vocabulário e fusão de matrizes, podendo ser dimensionado eficientemente para acomodar vários LLMs. Para lidar com desvios distribucionais entre os LLMs de origem e destino, o WRPO introduz uma estratégia de adaptação progressiva que gradualmente transfere a dependência de exemplos preferidos do LLM de destino para os LLMs de origem. Experimentos extensivos nos benchmarks MT-Bench, AlpacaEval-2 e Arena-Hard demonstram que o WRPO consistentemente supera os métodos existentes de fusão de conhecimento e várias linhas de base de ajuste fino. Quando aplicado ao modelo alvo LLaMA3-8B-Instruct, o WRPO alcança uma taxa de vitória controlada por comprimento de 55,9% contra o GPT-4-Preview-1106 no AlpacaEval-2 e uma taxa de vitória de 46,2% contra o GPT-4-0314 no Arena-Hard. Nosso código está disponível em https://github.com/SLIT-AI/WRPO.
English
While fusing heterogeneous open-source LLMs with varying architectures and sizes can potentially integrate the strengths of different models, existing fusion methods face significant challenges, such as vocabulary alignment and merging distribution matrices. These procedures are not only complex but also prone to introducing noise and errors. In this paper, we propose an implicit fusion method, Weighted-Reward Preference Optimization (WRPO), which leverages preference optimization between the source LLMs and the target LLM to transfer their capabilities effectively. WRPO eliminates the need for vocabulary alignment and matrix fusion and can be efficiently scaled to accommodate various LLMs. To address distributional deviations between the source and target LLMs, WRPO introduces a progressive adaptation strategy that gradually shifts reliance on preferred examples from the target LLM to the source LLMs. Extensive experiments on the MT-Bench, AlpacaEval-2, and Arena-Hard benchmarks demonstrate that WRPO consistently outperforms existing knowledge fusion methods and various fine-tuning baselines. When applied to LLaMA3-8B-Instruct as the target model, WRPO achieves a length-controlled win rate of 55.9% against GPT-4-Preview-1106 on AlpacaEval-2 and a win rate of 46.2% against GPT-4-0314 on Arena-Hard. Our code is available at https://github.com/SLIT-AI/WRPO.
PDF122December 5, 2024