Маршрутизация к эксперту: эффективный ансамбль больших языковых моделей с управлением на основе вознаграждения
Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models
November 15, 2023
Авторы: Keming Lu, Hongyi Yuan, Runji Lin, Junyang Lin, Zheng Yuan, Chang Zhou, Jingren Zhou
cs.AI
Аннотация
Дополнительный потенциал крупных языковых моделей (LLM) предполагает, что готовые к использованию LLM обладают разнородной экспертизой в широком спектре областей и задач, что позволяет ансамблю LLM достигать стабильно лучших результатов. Существующие методы ансамблирования для LLM в основном сосредоточены на ранжировании выходных данных с использованием моделей вознаграждения, что приводит к значительным вычислительным затратам. Для решения этой проблемы мы возвращаемся к изучению дополнительного потенциала LLM и детализируем его, извлекая скрытую экспертизу с помощью готовых моделей вознаграждения. Мы предлагаем Zooter — метод маршрутизации, управляемый вознаграждением, который использует данные о вознаграждениях на обучающих запросах для обучения функции маршрутизации, способной точно распределять каждый запрос к LLM, обладающей соответствующей экспертизой. Мы также интегрируем улучшение меток на основе тегов, чтобы снизить шум, вызванный неопределенностью при использовании вознаграждений в качестве серебряного супервизии. Zooter демонстрирует вычислительную эффективность на этапе вывода, так как вносит лишь незначительные дополнительные вычислительные затраты на функцию маршрутизации по сравнению с методами ранжирования на основе моделей вознаграждения. Мы оцениваем Zooter на комплексной коллекции бенчмарков, включающей 26 подмножеств в различных областях и задачах. Zooter превосходит лучшую одиночную модель в среднем и занимает первое место в 44% задач, даже опережая несколько методов ранжирования на основе моделей вознаграждения.
English
The complementary potential of Large Language Models (LLM) assumes
off-the-shelf LLMs have heterogeneous expertise in a wide range of domains and
tasks so that an ensemble of LLMs can achieve consistently better performance.
Existing ensemble methods for LLMs mainly focus on reward model ranking of
outputs, leading to significant computation overhead. To combat this issue, we
revisit the complementary potential of LLMs and further elaborate it by mining
latent expertise with off-the-shelf reward models. We propose Zooter, a
reward-guided routing method distilling rewards on training queries to train a
routing function, which can precisely distribute each query to the LLM with
expertise about it. We also integrate a tag-based label enhancement to mitigate
noise from uncertainty when using rewards as silver supervision. Zooter shows
computation efficiency in inference as it introduces only a minor computation
overhead of a routing function compared with reward model ranking methods. We
evaluate Zooter on a comprehensive benchmark collection with 26 subsets on
different domains and tasks. Zooter outperforms the best single model on
average and ranks first on 44% of tasks, even surpassing multiple reward model
ranking methods.