Смешение — это всё, что нужно: более дешёвая и эффективная альтернатива языковым моделям с триллионами параметров.
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
January 4, 2024
Авторы: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
cs.AI
Аннотация
В исследованиях в области диалогового ИИ наблюдается заметная тенденция к разработке моделей с большим количеством параметров, примером которых является ChatGPT. Хотя такие масштабные модели демонстрируют всё более качественные ответы в чате, они требуют значительных вычислительных ресурсов и памяти. В данном исследовании рассматривается важный вопрос: может ли комбинация более компактных моделей совместно достичь сопоставимой или даже превосходящей производительности по сравнению с одной крупной моделью? Мы представляем подход под названием "смешивание" — простой, но эффективный метод интеграции нескольких чат-ботов. Наши эмпирические данные показывают, что при синергетическом смешивании определённых небольших моделей они могут потенциально превзойти или соответствовать возможностям гораздо более крупных аналогов. Например, объединение всего трёх моделей умеренного размера (6B/13B параметров) может конкурировать или даже превосходить показатели производительности значительно более крупной модели, такой как ChatGPT (175B+ параметров). Эта гипотеза тщательно проверяется с использованием методологии A/B-тестирования на большой пользовательской базе платформы Chai Research в течение тридцати дней. Результаты подчеркивают потенциал стратегии "смешивания" как жизнеспособного подхода для повышения эффективности чат-ботов без соответствующего увеличения вычислительных затрат.
English
In conversational AI research, there's a noticeable trend towards developing
models with a larger number of parameters, exemplified by models like ChatGPT.
While these expansive models tend to generate increasingly better chat
responses, they demand significant computational resources and memory. This
study explores a pertinent question: Can a combination of smaller models
collaboratively achieve comparable or enhanced performance relative to a
singular large model? We introduce an approach termed "blending", a
straightforward yet effective method of integrating multiple chat AIs. Our
empirical evidence suggests that when specific smaller models are
synergistically blended, they can potentially outperform or match the
capabilities of much larger counterparts. For instance, integrating just three
models of moderate size (6B/13B paramaeters) can rival or even surpass the
performance metrics of a substantially larger model like ChatGPT (175B+
paramaters). This hypothesis is rigorously tested using A/B testing
methodologies with a large user base on the Chai research platform over a span
of thirty days. The findings underscore the potential of the "blending"
strategy as a viable approach for enhancing chat AI efficacy without a
corresponding surge in computational demands.