ChatPaper.aiChatPaper

블렌딩이 전부다: 조 단위 파라미터 LLM에 대한 더 저렴하고 더 나은 대안

Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

January 4, 2024
저자: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
cs.AI

초록

대화형 인공지능 연구에서는 ChatGPT와 같은 모델로 대표되는, 더 많은 매개변수를 가진 모델을 개발하려는 뚜렷한 추세가 관찰된다. 이러한 대규모 모델은 점점 더 나은 채팅 응답을 생성하는 경향이 있지만, 상당한 계산 자원과 메모리를 요구한다. 본 연구는 다음과 같은 관련 질문을 탐구한다: 더 작은 모델들의 조합이 단일 대형 모델에 비해 비슷하거나 향상된 성능을 협력적으로 달성할 수 있는가? 우리는 "블렌딩(blending)"이라는 접근법을 소개하는데, 이는 여러 채팅 AI를 통합하는 간단하면서도 효과적인 방법이다. 우리의 실증적 증거는 특정한 더 작은 모델들이 시너지 효과를 내며 블렌딩될 때, 훨씬 더 큰 모델의 능력을 능가하거나 동등한 성능을 발휘할 가능성이 있음을 시사한다. 예를 들어, 중간 크기의 세 모델(6B/13B 매개변수)을 통합하면 ChatGPT(175B+ 매개변수)와 같은 훨씬 더 큰 모델의 성능 지표에 필적하거나 이를 능가할 수 있다. 이 가설은 Chai 연구 플랫폼에서 30일 동안 대규모 사용자 기반을 대상으로 A/B 테스트 방법론을 사용하여 엄격히 검증되었다. 연구 결과는 "블렌딩" 전략이 계산 요구량의 급증 없이 채팅 AI의 효능을 향상시키는 실행 가능한 접근법으로서의 잠재력을 강조한다.
English
In conversational AI research, there's a noticeable trend towards developing models with a larger number of parameters, exemplified by models like ChatGPT. While these expansive models tend to generate increasingly better chat responses, they demand significant computational resources and memory. This study explores a pertinent question: Can a combination of smaller models collaboratively achieve comparable or enhanced performance relative to a singular large model? We introduce an approach termed "blending", a straightforward yet effective method of integrating multiple chat AIs. Our empirical evidence suggests that when specific smaller models are synergistically blended, they can potentially outperform or match the capabilities of much larger counterparts. For instance, integrating just three models of moderate size (6B/13B paramaeters) can rival or even surpass the performance metrics of a substantially larger model like ChatGPT (175B+ paramaters). This hypothesis is rigorously tested using A/B testing methodologies with a large user base on the Chai research platform over a span of thirty days. The findings underscore the potential of the "blending" strategy as a viable approach for enhancing chat AI efficacy without a corresponding surge in computational demands.
PDF520December 15, 2024