LLM-Blender : Assemblage de grands modèles de langage par classement par paires et fusion générative
LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
June 5, 2023
Auteurs: Dongfu Jiang, Xiang Ren, Bill Yuchen Lin
cs.AI
Résumé
Nous présentons LLM-Blender, un cadre d'assemblage conçu pour atteindre des performances constamment supérieures en exploitant les forces diversifiées de plusieurs modèles de langage de grande taille (LLMs) open-source. Notre cadre se compose de deux modules : PairRanker et GenFuser, répondant à l'observation que les LLMs optimaux pour différents exemples peuvent varier considérablement. PairRanker utilise une méthode de comparaison par paires spécialisée pour distinguer les différences subtiles entre les sorties candidates. Il encode conjointement le texte d'entrée et une paire de candidats, utilisant des encodeurs à attention croisée pour déterminer le meilleur. Nos résultats démontrent que PairRanker présente la plus forte corrélation avec le classement basé sur ChatGPT. Ensuite, GenFuser vise à fusionner les candidats les mieux classés, générant une sortie améliorée en capitalisant sur leurs forces et en atténuant leurs faiblesses. Pour faciliter l'évaluation à grande échelle, nous introduisons un ensemble de données de référence, MixInstruct, qui est un mélange de plusieurs ensembles de données d'instructions comportant des comparaisons par paires oracles. Notre LLM-Blender surpasse significativement les LLMs individuels et les méthodes de base sur diverses métriques, établissant un écart de performance substantiel.
English
We present LLM-Blender, an ensembling framework designed to attain
consistently superior performance by leveraging the diverse strengths of
multiple open-source large language models (LLMs). Our framework consists of
two modules: PairRanker and GenFuser, addressing the observation that optimal
LLMs for different examples can significantly vary. PairRanker employs a
specialized pairwise comparison method to distinguish subtle differences
between candidate outputs. It jointly encodes the input text and a pair of
candidates, using cross-attention encoders to determine the superior one. Our
results demonstrate that PairRanker exhibits the highest correlation with
ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates,
generating an improved output by capitalizing on their strengths and mitigating
their weaknesses. To facilitate large-scale evaluation, we introduce a
benchmark dataset, MixInstruct, which is a mixture of multiple instruction
datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly
outperform individual LLMs and baseline methods across various metrics,
establishing a substantial performance gap.