Blending Is All You Need: Goedkopere, Betere Alternatief voor Taalmodellen met Biljoen Parameters
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
January 4, 2024
Auteurs: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
cs.AI
Samenvatting
In onderzoek naar conversatie-AI is er een duidelijke trend waarneembaar richting het ontwikkelen van modellen met een groter aantal parameters, zoals geïllustreerd door modellen als ChatGPT. Hoewel deze uitgebreide modellen steeds betere chatreacties genereren, vereisen ze aanzienlijke rekenkracht en geheugen. Deze studie onderzoekt een relevante vraag: Kan een combinatie van kleinere modellen gezamenlijk vergelijkbare of verbeterde prestaties bereiken ten opzichte van één groot model? We introduceren een benadering genaamd "blending", een eenvoudige maar effectieve methode om meerdere chat-AI's te integreren. Onze empirische bevindingen suggereren dat wanneer specifieke kleinere modellen synergetisch worden gecombineerd, ze mogelijk de capaciteiten van veel grotere tegenhangers kunnen evenaren of overtreffen. Zo kan de integratie van slechts drie modellen van gemiddelde grootte (6B/13B parameters) de prestaties van een aanzienlijk groter model zoals ChatGPT (175B+ parameters) evenaren of zelfs overstijgen. Deze hypothese wordt rigoureus getest met behulp van A/B-testmethodologieën met een grote gebruikersbasis op het Chai-onderzoeksplatform gedurende een periode van dertig dagen. De bevindingen benadrukken het potentieel van de "blending"-strategie als een haalbare aanpak om de effectiviteit van chat-AI te verbeteren zonder een overeenkomstige toename in rekenkracht.
English
In conversational AI research, there's a noticeable trend towards developing
models with a larger number of parameters, exemplified by models like ChatGPT.
While these expansive models tend to generate increasingly better chat
responses, they demand significant computational resources and memory. This
study explores a pertinent question: Can a combination of smaller models
collaboratively achieve comparable or enhanced performance relative to a
singular large model? We introduce an approach termed "blending", a
straightforward yet effective method of integrating multiple chat AIs. Our
empirical evidence suggests that when specific smaller models are
synergistically blended, they can potentially outperform or match the
capabilities of much larger counterparts. For instance, integrating just three
models of moderate size (6B/13B paramaeters) can rival or even surpass the
performance metrics of a substantially larger model like ChatGPT (175B+
paramaters). This hypothesis is rigorously tested using A/B testing
methodologies with a large user base on the Chai research platform over a span
of thirty days. The findings underscore the potential of the "blending"
strategy as a viable approach for enhancing chat AI efficacy without a
corresponding surge in computational demands.