Oktopus v4: Graph der Sprachmodelle
Octopus v4: Graph of language models
April 30, 2024
Autoren: Wei Chen, Zhiyuan Li
cs.AI
Zusammenfassung
Sprachmodelle haben sich in einer Vielzahl von Anwendungen als wirksam erwiesen, doch die ausgefeiltesten Modelle sind oft proprietär. Zum Beispiel sind GPT-4 von OpenAI und verschiedene Modelle von Anthropic teuer und verbrauchen erhebliche Energie. Im Gegensatz dazu hat die Open-Source-Community wettbewerbsfähige Modelle wie Llama3 entwickelt. Darüber hinaus haben spezialisierte kleinere Sprachmodelle, die für rechtliche, medizinische oder finanzielle Aufgaben maßgeschneidert sind, ihre proprietären Gegenstücke übertroffen. Dieser Artikel stellt einen neuartigen Ansatz vor, der funktionale Tokens verwendet, um mehrere Open-Source-Modelle zu integrieren, die jeweils für bestimmte Aufgaben optimiert sind. Unser neu entwickeltes Modell Octopus v4 nutzt funktionale Tokens, um Benutzeranfragen intelligent an das geeignetste vertikale Modell zu leiten und die Anfrage neu zu formatieren, um die beste Leistung zu erzielen. Octopus v4, eine Weiterentwicklung der Modelle Octopus v1, v2 und v3, zeichnet sich durch Auswahl- und Parameterverständnis sowie Neugestaltung aus. Darüber hinaus untersuchen wir den Einsatz von Graphen als vielseitige Datenstruktur, die mehrere Open-Source-Modelle effektiv koordiniert, indem sie die Fähigkeiten des Octopus-Modells und funktionale Tokens nutzt. Nutzen Sie unser Open-Source-GitHub (https://www.nexa4ai.com/), um Octopus v4-Modelle auszuprobieren (https://huggingface.co/NexaAIDev/Octopus-v4) und tragen Sie zu einem größeren Graphen von Sprachmodellen bei. Durch die Aktivierung von Modellen mit weniger als 10 Milliarden Parametern haben wir einen SOTA MMLU-Score von 74,8 bei Modellen auf dem gleichen Niveau erreicht.
English
Language models have been effective in a wide range of applications, yet the
most sophisticated models are often proprietary. For example, GPT-4 by OpenAI
and various models by Anthropic are expensive and consume substantial energy.
In contrast, the open-source community has produced competitive models, like
Llama3. Furthermore, niche-specific smaller language models, such as those
tailored for legal, medical or financial tasks, have outperformed their
proprietary counterparts. This paper introduces a novel approach that employs
functional tokens to integrate multiple open-source models,
each optimized for particular tasks. Our newly developed Octopus v4 model
leverages functional tokens to intelligently direct user queries to
the most appropriate vertical model and reformat the query to achieve the best
performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models,
excels in selection and parameter understanding and reformatting. Additionally,
we explore the use of graph as a versatile data structure that effectively
coordinates multiple open-source models by harnessing the capabilities of the
Octopus model and functional tokens. Use our open-sourced GitHub
(https://www.nexa4ai.com/) to try Octopus v4 models
(https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger
graph of language models. By activating models less than 10B parameters, we
achieved SOTA MMLU score of 74.8 among the same level models.Summary
AI-Generated Summary