Octopus v4 : Graphe de modèles de langage
Octopus v4: Graph of language models
April 30, 2024
papers.authors: Wei Chen, Zhiyuan Li
cs.AI
papers.abstract
Les modèles de langage se sont avérés efficaces dans un large éventail d'applications, mais les modèles les plus sophistiqués sont souvent propriétaires. Par exemple, GPT-4 d'OpenAI et divers modèles d'Anthropic sont coûteux et consomment une quantité substantielle d'énergie. En revanche, la communauté open source a produit des modèles compétitifs, comme Llama3. De plus, des modèles de langage plus petits et spécialisés, tels que ceux conçus pour des tâches juridiques, médicales ou financières, ont surpassé leurs homologues propriétaires. Cet article présente une nouvelle approche qui utilise des tokens fonctionnels pour intégrer plusieurs modèles open source, chacun optimisé pour des tâches spécifiques. Notre nouveau modèle Octopus v4 exploite ces tokens fonctionnels pour diriger intelligemment les requêtes des utilisateurs vers le modèle vertical le plus approprié et reformater la requête pour obtenir les meilleures performances. Octopus v4, une évolution des modèles Octopus v1, v2 et v3, excelle dans la sélection, la compréhension des paramètres et le reformatage. De plus, nous explorons l'utilisation du graphe comme structure de données polyvalente qui coordonne efficacement plusieurs modèles open source en tirant parti des capacités du modèle Octopus et des tokens fonctionnels. Utilisez notre dépôt GitHub open source (https://www.nexa4ai.com/) pour essayer les modèles Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) et contribuer à un graphe plus étendu de modèles de langage. En activant des modèles de moins de 10 milliards de paramètres, nous avons atteint un score SOTA MMLU de 74,8 parmi les modèles de même niveau.
English
Language models have been effective in a wide range of applications, yet the
most sophisticated models are often proprietary. For example, GPT-4 by OpenAI
and various models by Anthropic are expensive and consume substantial energy.
In contrast, the open-source community has produced competitive models, like
Llama3. Furthermore, niche-specific smaller language models, such as those
tailored for legal, medical or financial tasks, have outperformed their
proprietary counterparts. This paper introduces a novel approach that employs
functional tokens to integrate multiple open-source models,
each optimized for particular tasks. Our newly developed Octopus v4 model
leverages functional tokens to intelligently direct user queries to
the most appropriate vertical model and reformat the query to achieve the best
performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models,
excels in selection and parameter understanding and reformatting. Additionally,
we explore the use of graph as a versatile data structure that effectively
coordinates multiple open-source models by harnessing the capabilities of the
Octopus model and functional tokens. Use our open-sourced GitHub
(https://www.nexa4ai.com/) to try Octopus v4 models
(https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger
graph of language models. By activating models less than 10B parameters, we
achieved SOTA MMLU score of 74.8 among the same level models.