ChatPaper.aiChatPaper

Oktopus v4: Graph der Sprachmodelle

Octopus v4: Graph of language models

April 30, 2024
Autoren: Wei Chen, Zhiyuan Li
cs.AI

Zusammenfassung

Sprachmodelle haben sich in einer Vielzahl von Anwendungen als wirksam erwiesen, doch die ausgefeiltesten Modelle sind oft proprietär. Zum Beispiel sind GPT-4 von OpenAI und verschiedene Modelle von Anthropic teuer und verbrauchen erhebliche Energie. Im Gegensatz dazu hat die Open-Source-Community wettbewerbsfähige Modelle wie Llama3 entwickelt. Darüber hinaus haben spezialisierte kleinere Sprachmodelle, die für rechtliche, medizinische oder finanzielle Aufgaben maßgeschneidert sind, ihre proprietären Gegenstücke übertroffen. Dieser Artikel stellt einen neuartigen Ansatz vor, der funktionale Tokens verwendet, um mehrere Open-Source-Modelle zu integrieren, die jeweils für bestimmte Aufgaben optimiert sind. Unser neu entwickeltes Modell Octopus v4 nutzt funktionale Tokens, um Benutzeranfragen intelligent an das geeignetste vertikale Modell zu leiten und die Anfrage neu zu formatieren, um die beste Leistung zu erzielen. Octopus v4, eine Weiterentwicklung der Modelle Octopus v1, v2 und v3, zeichnet sich durch Auswahl- und Parameterverständnis sowie Neugestaltung aus. Darüber hinaus untersuchen wir den Einsatz von Graphen als vielseitige Datenstruktur, die mehrere Open-Source-Modelle effektiv koordiniert, indem sie die Fähigkeiten des Octopus-Modells und funktionale Tokens nutzt. Nutzen Sie unser Open-Source-GitHub (https://www.nexa4ai.com/), um Octopus v4-Modelle auszuprobieren (https://huggingface.co/NexaAIDev/Octopus-v4) und tragen Sie zu einem größeren Graphen von Sprachmodellen bei. Durch die Aktivierung von Modellen mit weniger als 10 Milliarden Parametern haben wir einen SOTA MMLU-Score von 74,8 bei Modellen auf dem gleichen Niveau erreicht.
English
Language models have been effective in a wide range of applications, yet the most sophisticated models are often proprietary. For example, GPT-4 by OpenAI and various models by Anthropic are expensive and consume substantial energy. In contrast, the open-source community has produced competitive models, like Llama3. Furthermore, niche-specific smaller language models, such as those tailored for legal, medical or financial tasks, have outperformed their proprietary counterparts. This paper introduces a novel approach that employs functional tokens to integrate multiple open-source models, each optimized for particular tasks. Our newly developed Octopus v4 model leverages functional tokens to intelligently direct user queries to the most appropriate vertical model and reformat the query to achieve the best performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models, excels in selection and parameter understanding and reformatting. Additionally, we explore the use of graph as a versatile data structure that effectively coordinates multiple open-source models by harnessing the capabilities of the Octopus model and functional tokens. Use our open-sourced GitHub (https://www.nexa4ai.com/) to try Octopus v4 models (https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger graph of language models. By activating models less than 10B parameters, we achieved SOTA MMLU score of 74.8 among the same level models.

Summary

AI-Generated Summary

PDF11919December 8, 2024