LLM-Blender: Combinação de Modelos de Linguagem de Grande Escala com Classificação Pareada e Fusão Generativa
LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
June 5, 2023
Autores: Dongfu Jiang, Xiang Ren, Bill Yuchen Lin
cs.AI
Resumo
Apresentamos o LLM-Blender, uma estrutura de ensemble projetada para alcançar desempenho consistentemente superior ao aproveitar os diversos pontos fortes de múltiplos modelos de linguagem de grande escala (LLMs) de código aberto. Nossa estrutura consiste em dois módulos: PairRanker e GenFuser, abordando a observação de que os LLMs ideais para diferentes exemplos podem variar significativamente. O PairRanker emprega um método especializado de comparação pareada para distinguir diferenças sutis entre saídas candidatas. Ele codifica conjuntamente o texto de entrada e um par de candidatos, utilizando codificadores de atenção cruzada para determinar o superior. Nossos resultados demonstram que o PairRanker exibe a maior correlação com a classificação baseada no ChatGPT. Em seguida, o GenFuser visa mesclar os candidatos mais bem classificados, gerando uma saída aprimorada ao capitalizar seus pontos fortes e mitigar suas fraquezas. Para facilitar a avaliação em larga escala, introduzimos um conjunto de dados de referência, o MixInstruct, que é uma mistura de múltiplos conjuntos de dados de instrução com comparações pareadas oráculo. Nosso LLM-Blender supera significativamente os LLMs individuais e métodos de linha de base em várias métricas, estabelecendo uma lacuna substancial de desempenho.
English
We present LLM-Blender, an ensembling framework designed to attain
consistently superior performance by leveraging the diverse strengths of
multiple open-source large language models (LLMs). Our framework consists of
two modules: PairRanker and GenFuser, addressing the observation that optimal
LLMs for different examples can significantly vary. PairRanker employs a
specialized pairwise comparison method to distinguish subtle differences
between candidate outputs. It jointly encodes the input text and a pair of
candidates, using cross-attention encoders to determine the superior one. Our
results demonstrate that PairRanker exhibits the highest correlation with
ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates,
generating an improved output by capitalizing on their strengths and mitigating
their weaknesses. To facilitate large-scale evaluation, we introduce a
benchmark dataset, MixInstruct, which is a mixture of multiple instruction
datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly
outperform individual LLMs and baseline methods across various metrics,
establishing a substantial performance gap.