ブレンディングこそがすべて:兆パラメータ級LLMに対するより安価で優れた代替手法
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM
January 4, 2024
著者: Xiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp
cs.AI
要旨
会話型AIの研究において、ChatGPTのようなモデルに代表されるように、パラメータ数を大幅に増やしたモデルの開発が顕著なトレンドとなっています。これらの大規模モデルは、より優れたチャット応答を生成する傾向がありますが、その一方で膨大な計算資源とメモリを必要とします。本研究では、重要な疑問を探求します:より小規模なモデルを組み合わせることで、単一の大規模モデルと同等またはそれ以上の性能を達成できるのか?我々は「ブレンディング」と呼ばれる手法を提案します。これは複数のチャットAIを統合するシンプルでありながら効果的な方法です。実証的な証拠から、特定の小規模モデルを相乗的にブレンドすることで、より大規模なモデルを凌駕または同等の能力を発揮できる可能性が示唆されています。例えば、中規模の3つのモデル(6B/13Bパラメータ)を統合するだけで、ChatGPT(175B+パラメータ)のようなはるかに大規模なモデルの性能指標に匹敵またはそれを上回ることができます。この仮説は、Chai研究プラットフォームにおいて大規模なユーザーベースを用いたA/Bテスト手法により、30日間にわたって厳密に検証されました。結果は、「ブレンディング」戦略が、計算需要の急増を伴わずにチャットAIの効率を向上させるための有効なアプローチとしての可能性を強調しています。
English
In conversational AI research, there's a noticeable trend towards developing
models with a larger number of parameters, exemplified by models like ChatGPT.
While these expansive models tend to generate increasingly better chat
responses, they demand significant computational resources and memory. This
study explores a pertinent question: Can a combination of smaller models
collaboratively achieve comparable or enhanced performance relative to a
singular large model? We introduce an approach termed "blending", a
straightforward yet effective method of integrating multiple chat AIs. Our
empirical evidence suggests that when specific smaller models are
synergistically blended, they can potentially outperform or match the
capabilities of much larger counterparts. For instance, integrating just three
models of moderate size (6B/13B paramaeters) can rival or even surpass the
performance metrics of a substantially larger model like ChatGPT (175B+
paramaters). This hypothesis is rigorously tested using A/B testing
methodologies with a large user base on the Chai research platform over a span
of thirty days. The findings underscore the potential of the "blending"
strategy as a viable approach for enhancing chat AI efficacy without a
corresponding surge in computational demands.