Octopus v4: Grafo de modelos de linguagem
Octopus v4: Graph of language models
April 30, 2024
Autores: Wei Chen, Zhiyuan Li
cs.AI
Resumo
Os modelos de linguagem têm sido eficazes em uma ampla gama de aplicações, porém os modelos mais sofisticados são frequentemente proprietários. Por exemplo, o GPT-4 da OpenAI e vários modelos da Anthropic são caros e consomem uma quantidade substancial de energia. Em contraste, a comunidade de código aberto produziu modelos competitivos, como o Llama3. Além disso, modelos de linguagem menores e específicos para nichos, como aqueles adaptados para tarefas jurídicas, médicas ou financeiras, superaram suas contrapartes proprietárias. Este artigo introduz uma nova abordagem que emprega tokens funcionais para integrar múltiplos modelos de código aberto, cada um otimizado para tarefas específicas. Nosso recém-desenvolvido modelo Octopus v4 aproveita tokens funcionais para direcionar inteligentemente as consultas dos usuários ao modelo vertical mais apropriado e reformatar a consulta para obter o melhor desempenho. O Octopus v4, uma evolução dos modelos Octopus v1, v2 e v3, se destaca na seleção e compreensão de parâmetros e na reformatação. Além disso, exploramos o uso de grafos como uma estrutura de dados versátil que coordena efetivamente múltiplos modelos de código aberto, aproveitando as capacidades do modelo Octopus e dos tokens funcionais. Use nosso GitHub de código aberto (https://www.nexa4ai.com/) para experimentar os modelos Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) e contribuir para um grafo maior de modelos de linguagem. Ao ativar modelos com menos de 10 bilhões de parâmetros, alcançamos uma pontuação SOTA MMLU de 74,8 entre modelos do mesmo nível.
English
Language models have been effective in a wide range of applications, yet the
most sophisticated models are often proprietary. For example, GPT-4 by OpenAI
and various models by Anthropic are expensive and consume substantial energy.
In contrast, the open-source community has produced competitive models, like
Llama3. Furthermore, niche-specific smaller language models, such as those
tailored for legal, medical or financial tasks, have outperformed their
proprietary counterparts. This paper introduces a novel approach that employs
functional tokens to integrate multiple open-source models,
each optimized for particular tasks. Our newly developed Octopus v4 model
leverages functional tokens to intelligently direct user queries to
the most appropriate vertical model and reformat the query to achieve the best
performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models,
excels in selection and parameter understanding and reformatting. Additionally,
we explore the use of graph as a versatile data structure that effectively
coordinates multiple open-source models by harnessing the capabilities of the
Octopus model and functional tokens. Use our open-sourced GitHub
(https://www.nexa4ai.com/) to try Octopus v4 models
(https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger
graph of language models. By activating models less than 10B parameters, we
achieved SOTA MMLU score of 74.8 among the same level models.