ChatPaper.aiChatPaper

Octopus v4: Grafiek van taalmodelen

Octopus v4: Graph of language models

April 30, 2024
Auteurs: Wei Chen, Zhiyuan Li
cs.AI

Samenvatting

Taalmodelen zijn effectief gebleken in een breed scala aan toepassingen, maar de meest geavanceerde modellen zijn vaak propriëtair. GPT-4 van OpenAI en verschillende modellen van Anthropic zijn bijvoorbeeld duur en verbruiken aanzienlijk veel energie. Daarentegen heeft de open-sourcegemeenschap concurrerende modellen geproduceerd, zoals Llama3. Bovendien hebben nichespecifieke kleinere taalmodellen, zoals die zijn afgestemd op juridische, medische of financiële taken, hun propriëtaire tegenhangers overtroffen. Dit artikel introduceert een nieuwe aanpak die functionele tokens gebruikt om meerdere open-sourcemodellen te integreren, elk geoptimaliseerd voor specifieke taken. Ons nieuw ontwikkelde Octopus v4-model maakt gebruik van functionele tokens om gebruikersvragen intelligent door te sturen naar het meest geschikte verticale model en de vraag te herformuleren voor de beste prestaties. Octopus v4, een evolutie van de Octopus v1, v2 en v3-modellen, blinkt uit in selectie, parameterbegrip en herformattering. Daarnaast onderzoeken we het gebruik van grafieken als een veelzijdige datastructuur die effectief meerdere open-sourcemodellen coördineert door de mogelijkheden van het Octopus-model en functionele tokens te benutten. Gebruik onze open-source GitHub (https://www.nexa4ai.com/) om Octopus v4-modellen uit te proberen (https://huggingface.co/NexaAIDev/Octopus-v4), en draag bij aan een groter netwerk van taalmodelen. Door modellen met minder dan 10B parameters te activeren, hebben we een SOTA MMLU-score van 74,8 behaald onder modellen van hetzelfde niveau.
English
Language models have been effective in a wide range of applications, yet the most sophisticated models are often proprietary. For example, GPT-4 by OpenAI and various models by Anthropic are expensive and consume substantial energy. In contrast, the open-source community has produced competitive models, like Llama3. Furthermore, niche-specific smaller language models, such as those tailored for legal, medical or financial tasks, have outperformed their proprietary counterparts. This paper introduces a novel approach that employs functional tokens to integrate multiple open-source models, each optimized for particular tasks. Our newly developed Octopus v4 model leverages functional tokens to intelligently direct user queries to the most appropriate vertical model and reformat the query to achieve the best performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models, excels in selection and parameter understanding and reformatting. Additionally, we explore the use of graph as a versatile data structure that effectively coordinates multiple open-source models by harnessing the capabilities of the Octopus model and functional tokens. Use our open-sourced GitHub (https://www.nexa4ai.com/) to try Octopus v4 models (https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger graph of language models. By activating models less than 10B parameters, we achieved SOTA MMLU score of 74.8 among the same level models.
PDF11819February 8, 2026