Misturar é Tudo o que Você Precisa: Alternativa Mais Barata e Melhor aos LLMs com Trilhões de Parâmetros
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
January 4, 2024
Autores: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
cs.AI
Resumo
Na pesquisa de IA conversacional, há uma tendência perceptível em direção ao desenvolvimento de modelos com um número maior de parâmetros, exemplificados por modelos como o ChatGPT. Embora esses modelos expansivos tendam a gerar respostas de chat cada vez melhores, eles demandam recursos computacionais e de memória significativos. Este estudo explora uma questão pertinente: Uma combinação de modelos menores pode, de forma colaborativa, alcançar desempenho comparável ou superior ao de um único modelo grande? Introduzimos uma abordagem denominada "blending", um método simples, porém eficaz, de integrar múltiplas IAs de chat. Nossas evidências empíricas sugerem que, quando modelos menores específicos são combinados de forma sinérgica, eles podem potencialmente superar ou igualar as capacidades de contrapartidas muito maiores. Por exemplo, a integração de apenas três modelos de tamanho moderado (6B/13B parâmetros) pode rivalizar ou até superar as métricas de desempenho de um modelo substancialmente maior, como o ChatGPT (175B+ parâmetros). Essa hipótese é rigorosamente testada usando metodologias de teste A/B com uma grande base de usuários na plataforma de pesquisa Chai ao longo de trinta dias. Os resultados destacam o potencial da estratégia de "blending" como uma abordagem viável para melhorar a eficácia de IAs de chat sem um aumento correspondente nas demandas computacionais.
English
In conversational AI research, there's a noticeable trend towards developing
models with a larger number of parameters, exemplified by models like ChatGPT.
While these expansive models tend to generate increasingly better chat
responses, they demand significant computational resources and memory. This
study explores a pertinent question: Can a combination of smaller models
collaboratively achieve comparable or enhanced performance relative to a
singular large model? We introduce an approach termed "blending", a
straightforward yet effective method of integrating multiple chat AIs. Our
empirical evidence suggests that when specific smaller models are
synergistically blended, they can potentially outperform or match the
capabilities of much larger counterparts. For instance, integrating just three
models of moderate size (6B/13B paramaeters) can rival or even surpass the
performance metrics of a substantially larger model like ChatGPT (175B+
paramaters). This hypothesis is rigorously tested using A/B testing
methodologies with a large user base on the Chai research platform over a span
of thirty days. The findings underscore the potential of the "blending"
strategy as a viable approach for enhancing chat AI efficacy without a
corresponding surge in computational demands.