ChatPaper.aiChatPaper

Осьминог v4: Граф языковых моделей

Octopus v4: Graph of language models

April 30, 2024
Авторы: Wei Chen, Zhiyuan Li
cs.AI

Аннотация

Языковые модели были эффективны в широком спектре приложений, однако наиболее сложные модели часто являются собственностью. Например, GPT-4 от OpenAI и различные модели от Anthropic являются дорогостоящими и потребляют значительное количество энергии. В отличие от этого, сообщество с открытым исходным кодом создало конкурентоспособные модели, такие как Llama3. Более того, узкоспециализированные меньшие языковые модели, такие как те, которые адаптированы для юридических, медицинских или финансовых задач, превзошли своих собственных аналогов. В данной статье представлен новый подход, который использует функциональные токены для интеграции нескольких моделей с открытым исходным кодом, каждая из которых оптимизирована для конкретных задач. Наш недавно разработанный модель Octopus v4 использует функциональные токены для интеллектуальной направленности запросов пользователей к наиболее подходящей вертикальной модели и переформатирования запроса для достижения лучшей производительности. Octopus v4, эволюция моделей Octopus v1, v2 и v3, превосходит в выборе и понимании параметров и переформатировании. Кроме того, мы исследуем использование графа в качестве универсальной структуры данных, которая эффективно координирует несколько моделей с открытым исходным кодом, используя возможности модели Octopus и функциональных токенов. Используйте наш репозиторий на GitHub (https://www.nexa4ai.com/) для опробования моделей Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) и вносите вклад в более крупный граф языковых моделей. Активировав модели с менее чем 10 миллиардами параметров, мы достигли SOTA MMLU показателя 74.8 среди моделей того же уровня.
English
Language models have been effective in a wide range of applications, yet the most sophisticated models are often proprietary. For example, GPT-4 by OpenAI and various models by Anthropic are expensive and consume substantial energy. In contrast, the open-source community has produced competitive models, like Llama3. Furthermore, niche-specific smaller language models, such as those tailored for legal, medical or financial tasks, have outperformed their proprietary counterparts. This paper introduces a novel approach that employs functional tokens to integrate multiple open-source models, each optimized for particular tasks. Our newly developed Octopus v4 model leverages functional tokens to intelligently direct user queries to the most appropriate vertical model and reformat the query to achieve the best performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models, excels in selection and parameter understanding and reformatting. Additionally, we explore the use of graph as a versatile data structure that effectively coordinates multiple open-source models by harnessing the capabilities of the Octopus model and functional tokens. Use our open-sourced GitHub (https://www.nexa4ai.com/) to try Octopus v4 models (https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger graph of language models. By activating models less than 10B parameters, we achieved SOTA MMLU score of 74.8 among the same level models.

Summary

AI-Generated Summary

PDF11919December 8, 2024