LLM-Blender: Combinação de Modelos de Linguagem de Grande Escala com Classificação Pareada e Fusão Generativa

Resumo

Apresentamos o LLM-Blender, uma estrutura de ensemble projetada para alcançar desempenho consistentemente superior ao aproveitar os diversos pontos fortes de múltiplos modelos de linguagem de grande escala (LLMs) de código aberto. Nossa estrutura consiste em dois módulos: PairRanker e GenFuser, abordando a observação de que os LLMs ideais para diferentes exemplos podem variar significativamente. O PairRanker emprega um método especializado de comparação pareada para distinguir diferenças sutis entre saídas candidatas. Ele codifica conjuntamente o texto de entrada e um par de candidatos, utilizando codificadores de atenção cruzada para determinar o superior. Nossos resultados demonstram que o PairRanker exibe a maior correlação com a classificação baseada no ChatGPT. Em seguida, o GenFuser visa mesclar os candidatos mais bem classificados, gerando uma saída aprimorada ao capitalizar seus pontos fortes e mitigar suas fraquezas. Para facilitar a avaliação em larga escala, introduzimos um conjunto de dados de referência, o MixInstruct, que é uma mistura de múltiplos conjuntos de dados de instrução com comparações pareadas oráculo. Nosso LLM-Blender supera significativamente os LLMs individuais e métodos de linha de base em várias métricas, estabelecendo uma lacuna substancial de desempenho.

English

We present LLM-Blender, an ensembling framework designed to attain consistently superior performance by leveraging the diverse strengths of multiple open-source large language models (LLMs). Our framework consists of two modules: PairRanker and GenFuser, addressing the observation that optimal LLMs for different examples can significantly vary. PairRanker employs a specialized pairwise comparison method to distinguish subtle differences between candidate outputs. It jointly encodes the input text and a pair of candidates, using cross-attention encoders to determine the superior one. Our results demonstrate that PairRanker exhibits the highest correlation with ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates, generating an improved output by capitalizing on their strengths and mitigating their weaknesses. To facilitate large-scale evaluation, we introduce a benchmark dataset, MixInstruct, which is a mixture of multiple instruction datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly outperform individual LLMs and baseline methods across various metrics, establishing a substantial performance gap.

LLM-Blender: Combinação de Modelos de Linguagem de Grande Escala com Classificação Pareada e Fusão Generativa

LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion

Resumo

Support