Blending È Tutto Ciò che Serve: Un'Alternativa Più Economica e Migliore ai Modelli Linguistici con Miliardi di Parametri
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
January 4, 2024
Autori: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
cs.AI
Abstract
Nella ricerca sull'IA conversazionale, si osserva una tendenza significativa verso lo sviluppo di modelli con un numero maggiore di parametri, esemplificati da modelli come ChatGPT. Sebbene questi modelli estesi tendano a generare risposte di chat sempre migliori, richiedono risorse computazionali e memoria significative. Questo studio esplora una domanda pertinente: è possibile che una combinazione di modelli più piccoli, collaborando tra loro, raggiunga prestazioni comparabili o superiori rispetto a un singolo modello di grandi dimensioni? Introduciamo un approccio denominato "blending", un metodo semplice ma efficace per integrare più IA di chat. Le nostre evidenze empiriche suggeriscono che, quando specifici modelli più piccoli vengono combinati in modo sinergico, possono potenzialmente superare o eguagliare le capacità di controparti molto più grandi. Ad esempio, l'integrazione di soli tre modelli di dimensioni moderate (6B/13B parametri) può rivaleggiare o addirittura superare le metriche di prestazione di un modello sostanzialmente più grande come ChatGPT (175B+ parametri). Questa ipotesi è stata rigorosamente testata utilizzando metodologie di test A/B con un'ampia base di utenti sulla piattaforma di ricerca Chai per un periodo di trenta giorni. I risultati sottolineano il potenziale della strategia di "blending" come approccio valido per migliorare l'efficacia delle IA di chat senza un corrispondente aumento delle richieste computazionali.
English
In conversational AI research, there's a noticeable trend towards developing
models with a larger number of parameters, exemplified by models like ChatGPT.
While these expansive models tend to generate increasingly better chat
responses, they demand significant computational resources and memory. This
study explores a pertinent question: Can a combination of smaller models
collaboratively achieve comparable or enhanced performance relative to a
singular large model? We introduce an approach termed "blending", a
straightforward yet effective method of integrating multiple chat AIs. Our
empirical evidence suggests that when specific smaller models are
synergistically blended, they can potentially outperform or match the
capabilities of much larger counterparts. For instance, integrating just three
models of moderate size (6B/13B paramaeters) can rival or even surpass the
performance metrics of a substantially larger model like ChatGPT (175B+
paramaters). This hypothesis is rigorously tested using A/B testing
methodologies with a large user base on the Chai research platform over a span
of thirty days. The findings underscore the potential of the "blending"
strategy as a viable approach for enhancing chat AI efficacy without a
corresponding surge in computational demands.