Octopus v4: 言語モデルのグラフOctopus v4: Graph of language models
言語モデルは幅広いアプリケーションで効果を発揮してきたが、最も洗練されたモデルはしばしばプロプライエタリである。例えば、OpenAIのGPT-4やAnthropicの各種モデルは高価で、多大なエネルギーを消費する。一方、オープンソースコミュニティはLlama3のような競争力のあるモデルを生み出している。さらに、法律、医療、金融などの特定の分野に特化した小型言語モデルは、プロプライエタリのモデルを凌駕する性能を示している。本論文では、機能トークンを用いて複数のオープンソースモデルを統合する新たなアプローチを紹介する。各モデルは特定のタスクに最適化されている。新たに開発したOctopus v4モデルは、機能トークンを活用してユーザーのクエリを最も適した垂直モデルにインテリジェントに誘導し、最高のパフォーマンスを達成するためにクエリを再フォーマットする。Octopus v4は、Octopus v1、v2、v3モデルの進化形であり、選択とパラメータの理解、再フォーマットに優れている。さらに、グラフを多用途のデータ構造として活用し、Octopusモデルと機能トークンの能力を活用して複数のオープンソースモデルを効果的に調整する方法を探る。私たちのオープンソースGitHub(https://www.nexa4ai.com/)を使用してOctopus v4モデル(https://huggingface.co/NexaAIDev/Octopus-v4)を試し、より大規模な言語モデルのグラフに貢献してください。10Bパラメータ未満のモデルを活性化することで、同レベルのモデルの中で74.8のSOTA MMLUスコアを達成した。