La Mezcla es Todo lo que Necesitas: Una Alternativa Más Económica y Mejor a los LLM de Billones de Parámetros
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
January 4, 2024
Autores: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
cs.AI
Resumen
En la investigación de IA conversacional, se observa una tendencia notable hacia el desarrollo de modelos con un mayor número de parámetros, ejemplificados por modelos como ChatGPT. Si bien estos modelos expansivos tienden a generar respuestas de chat cada vez mejores, requieren recursos computacionales y de memoria significativos. Este estudio explora una pregunta pertinente: ¿Puede una combinación de modelos más pequeños lograr de manera colaborativa un rendimiento comparable o mejorado en relación con un modelo grande singular? Introducimos un enfoque denominado "blending" (mezcla), un método sencillo pero efectivo de integrar múltiples IA de chat. Nuestra evidencia empírica sugiere que cuando se combinan sinérgicamente modelos más pequeños específicos, pueden superar o igualar las capacidades de contrapartes mucho más grandes. Por ejemplo, la integración de solo tres modelos de tamaño moderado (6B/13B parámetros) puede rivalizar o incluso superar las métricas de rendimiento de un modelo sustancialmente más grande como ChatGPT (175B+ parámetros). Esta hipótesis se prueba rigurosamente utilizando metodologías de pruebas A/B con una gran base de usuarios en la plataforma de investigación Chai durante un período de treinta días. Los hallazgos subrayan el potencial de la estrategia de "blending" como un enfoque viable para mejorar la eficacia de la IA de chat sin un aumento correspondiente en las demandas computacionales.
English
In conversational AI research, there's a noticeable trend towards developing
models with a larger number of parameters, exemplified by models like ChatGPT.
While these expansive models tend to generate increasingly better chat
responses, they demand significant computational resources and memory. This
study explores a pertinent question: Can a combination of smaller models
collaboratively achieve comparable or enhanced performance relative to a
singular large model? We introduce an approach termed "blending", a
straightforward yet effective method of integrating multiple chat AIs. Our
empirical evidence suggests that when specific smaller models are
synergistically blended, they can potentially outperform or match the
capabilities of much larger counterparts. For instance, integrating just three
models of moderate size (6B/13B paramaeters) can rival or even surpass the
performance metrics of a substantially larger model like ChatGPT (175B+
paramaters). This hypothesis is rigorously tested using A/B testing
methodologies with a large user base on the Chai research platform over a span
of thirty days. The findings underscore the potential of the "blending"
strategy as a viable approach for enhancing chat AI efficacy without a
corresponding surge in computational demands.