LLM-Blender: Ensamblaje de Modelos de Lenguaje Grande con Clasificación por Pares y Fusión Generativa
LLM-Blender: Ensembling Large Language Models with Pairwise Ranking and Generative Fusion
June 5, 2023
Autores: Dongfu Jiang, Xiang Ren, Bill Yuchen Lin
cs.AI
Resumen
Presentamos LLM-Blender, un marco de ensamblaje diseñado para alcanzar un rendimiento consistentemente superior aprovechando las diversas fortalezas de múltiples modelos de lenguaje grandes (LLMs) de código abierto. Nuestro marco consta de dos módulos: PairRanker y GenFuser, abordando la observación de que los LLMs óptimos para diferentes ejemplos pueden variar significativamente. PairRanker emplea un método especializado de comparación por pares para distinguir diferencias sutiles entre las salidas candidatas. Codifica conjuntamente el texto de entrada y un par de candidatos, utilizando codificadores de atención cruzada para determinar cuál es superior. Nuestros resultados demuestran que PairRanker exhibe la mayor correlación con el ranking basado en ChatGPT. Luego, GenFuser tiene como objetivo fusionar los candidatos mejor clasificados, generando una salida mejorada al capitalizar sus fortalezas y mitigar sus debilidades. Para facilitar la evaluación a gran escala, introducimos un conjunto de datos de referencia, MixInstruct, que es una mezcla de múltiples conjuntos de datos de instrucciones que incluyen comparaciones por pares oráculo. Nuestro LLM-Blender supera significativamente a los LLMs individuales y a los métodos de referencia en diversas métricas, estableciendo una brecha de rendimiento sustancial.
English
We present LLM-Blender, an ensembling framework designed to attain
consistently superior performance by leveraging the diverse strengths of
multiple open-source large language models (LLMs). Our framework consists of
two modules: PairRanker and GenFuser, addressing the observation that optimal
LLMs for different examples can significantly vary. PairRanker employs a
specialized pairwise comparison method to distinguish subtle differences
between candidate outputs. It jointly encodes the input text and a pair of
candidates, using cross-attention encoders to determine the superior one. Our
results demonstrate that PairRanker exhibits the highest correlation with
ChatGPT-based ranking. Then, GenFuser aims to merge the top-ranked candidates,
generating an improved output by capitalizing on their strengths and mitigating
their weaknesses. To facilitate large-scale evaluation, we introduce a
benchmark dataset, MixInstruct, which is a mixture of multiple instruction
datasets featuring oracle pairwise comparisons. Our LLM-Blender significantly
outperform individual LLMs and baseline methods across various metrics,
establishing a substantial performance gap.