Enrutamiento al Experto: Ensamblaje Eficiente Guiado por Recompensas de Modelos de Lenguaje a Gran Escala
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models
November 15, 2023
Autores: Keming Lu, Hongyi Yuan, Runji Lin, Junyang Lin, Zheng Yuan, Chang Zhou, Jingren Zhou
cs.AI
Resumen
El potencial complementario de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) asume que los LLM disponibles tienen experiencia heterogénea en una amplia gama de dominios y tareas, de modo que un conjunto de LLM puede lograr un rendimiento consistentemente mejor. Los métodos de ensamblaje existentes para LLM se centran principalmente en la clasificación de salidas mediante modelos de recompensa, lo que genera un sobrecarga computacional significativa. Para abordar este problema, revisamos el potencial complementario de los LLM y lo elaboramos aún más mediante la extracción de experiencia latente utilizando modelos de recompensa disponibles. Proponemos Zooter, un método de enrutamiento guiado por recompensas que destila las recompensas en consultas de entrenamiento para entrenar una función de enrutamiento, la cual puede distribuir con precisión cada consulta al LLM con experiencia en ese tema. También integramos una mejora de etiquetas basada en tags para mitigar el ruido causado por la incertidumbre al utilizar las recompensas como supervisión plateada. Zooter demuestra eficiencia computacional en la inferencia, ya que introduce solo una sobrecarga computacional menor de una función de enrutamiento en comparación con los métodos de clasificación basados en modelos de recompensa. Evaluamos Zooter en una colección integral de benchmarks con 26 subconjuntos en diferentes dominios y tareas. Zooter supera al mejor modelo individual en promedio y ocupa el primer lugar en el 44% de las tareas, incluso superando a múltiples métodos de clasificación basados en modelos de recompensa.
English
The complementary potential of Large Language Models (LLM) assumes
off-the-shelf LLMs have heterogeneous expertise in a wide range of domains and
tasks so that an ensemble of LLMs can achieve consistently better performance.
Existing ensemble methods for LLMs mainly focus on reward model ranking of
outputs, leading to significant computation overhead. To combat this issue, we
revisit the complementary potential of LLMs and further elaborate it by mining
latent expertise with off-the-shelf reward models. We propose Zooter, a
reward-guided routing method distilling rewards on training queries to train a
routing function, which can precisely distribute each query to the LLM with
expertise about it. We also integrate a tag-based label enhancement to mitigate
noise from uncertainty when using rewards as silver supervision. Zooter shows
computation efficiency in inference as it introduces only a minor computation
overhead of a routing function compared with reward model ranking methods. We
evaluate Zooter on a comprehensive benchmark collection with 26 subsets on
different domains and tasks. Zooter outperforms the best single model on
average and ranks first on 44% of tasks, even surpassing multiple reward model
ranking methods.