LLM-Blender: Ensemble großer Sprachmodelle mit paarweisem Ranking und generativer Fusion
LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
June 5, 2023
Autoren: Dongfu Jiang, Xiang Ren, Bill Yuchen Lin
cs.AI
Zusammenfassung
Wir präsentieren LLM-Blender, ein Ensembling-Framework, das darauf abzielt, durch die Nutzung der vielfältigen Stärken mehrerer Open-Source-Großsprachmodelle (LLMs) durchweg überlegene Leistung zu erzielen. Unser Framework besteht aus zwei Modulen: PairRanker und GenFuser, die die Beobachtung adressieren, dass die optimalen LLMs für verschiedene Beispiele erheblich variieren können. PairRanker verwendet eine spezialisierte paarweise Vergleichsmethode, um subtile Unterschiede zwischen Kandidatenausgaben zu unterscheiden. Es kodiert gemeinsam den Eingabetext und ein Kandidatenpaar und verwendet Cross-Attention-Encoder, um den überlegenen Kandidaten zu bestimmen. Unsere Ergebnisse zeigen, dass PairRanker die höchste Korrelation mit ChatGPT-basierten Rankings aufweist. Anschließend zielt GenFuser darauf ab, die bestplatzierten Kandidaten zu fusionieren und eine verbesserte Ausgabe zu generieren, indem es ihre Stärken nutzt und ihre Schwächen ausgleicht. Um eine groß angelegte Bewertung zu ermöglichen, führen wir einen Benchmark-Datensatz namens MixInstruct ein, eine Mischung aus mehreren Instruktionsdatensätzen, die oracle-paarweise Vergleiche enthalten. Unser LLM-Blender übertrifft deutlich einzelne LLMs und Baseline-Methoden über verschiedene Metriken hinweg und etabliert eine erhebliche Leistungslücke.
English
We present LLM-Blender, an ensembling framework designed to attain
consistently superior performance by leveraging the diverse strengths of
multiple open-source large language models (LLMs). Our framework consists of
two modules: PairRanker and GenFuser, addressing the observation that optimal
LLMs for different examples can significantly vary. PairRanker employs a
specialized pairwise comparison method to distinguish subtle differences
between candidate outputs. It jointly encodes the input text and a pair of
candidates, using cross-attention encoders to determine the superior one. Our
results demonstrate that PairRanker exhibits the highest correlation with
ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates,
generating an improved output by capitalizing on their strengths and mitigating
their weaknesses. To facilitate large-scale evaluation, we introduce a
benchmark dataset, MixInstruct, which is a mixture of multiple instruction
datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly
outperform individual LLMs and baseline methods across various metrics,
establishing a substantial performance gap.