LLM-Blender: Ensemble van Large Language Models met Paarsgewijs Rangschikken en Generatieve Fusie
LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
June 5, 2023
Auteurs: Dongfu Jiang, Xiang Ren, Bill Yuchen Lin
cs.AI
Samenvatting
We presenteren LLM-Blender, een ensemble-framework ontworpen om consistent superieure prestaties te behalen door gebruik te maken van de diverse sterke punten van meerdere open-source grote taalmodellen (LLM's). Ons framework bestaat uit twee modules: PairRanker en GenFuser, die inspelen op de observatie dat de optimale LLM's voor verschillende voorbeelden aanzienlijk kunnen variëren. PairRanker maakt gebruik van een gespecialiseerde paarsgewijze vergelijkingsmethode om subtiele verschillen tussen kandidaat-uitvoeringen te onderscheiden. Het codeert gezamenlijk de invoertekst en een paar kandidaten, waarbij cross-attention encoders worden gebruikt om de superieure te bepalen. Onze resultaten tonen aan dat PairRanker de hoogste correlatie vertoont met ChatGPT-gebaseerde rangschikking. Vervolgens streeft GenFuser ernaar om de hoogst gerangschikte kandidaten samen te voegen, waarbij een verbeterde uitvoer wordt gegenereerd door hun sterke punten te benutten en hun zwakke punten te mitigeren. Om grootschalige evaluatie mogelijk te maken, introduceren we een benchmarkdataset, MixInstruct, een mix van meerdere instructiedatasets met oracle paarsgewijze vergelijkingen. Onze LLM-Blender presteert aanzienlijk beter dan individuele LLM's en baseline-methoden op verschillende metrieken, wat een aanzienlijk prestatieverschil vaststelt.
English
We present LLM-Blender, an ensembling framework designed to attain
consistently superior performance by leveraging the diverse strengths of
multiple open-source large language models (LLMs). Our framework consists of
two modules: PairRanker and GenFuser, addressing the observation that optimal
LLMs for different examples can significantly vary. PairRanker employs a
specialized pairwise comparison method to distinguish subtle differences
between candidate outputs. It jointly encodes the input text and a pair of
candidates, using cross-attention encoders to determine the superior one. Our
results demonstrate that PairRanker exhibits the highest correlation with
ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates,
generating an improved output by capitalizing on their strengths and mitigating
their weaknesses. To facilitate large-scale evaluation, we introduce a
benchmark dataset, MixInstruct, which is a mixture of multiple instruction
datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly
outperform individual LLMs and baseline methods across various metrics,
establishing a substantial performance gap.