Octopus v4: Grafo de modelos de lenguaje
Octopus v4: Graph of language models
April 30, 2024
Autores: Wei Chen, Zhiyuan Li
cs.AI
Resumen
Los modelos de lenguaje han demostrado ser efectivos en una amplia gama de aplicaciones, aunque los modelos más sofisticados suelen ser propietarios. Por ejemplo, GPT-4 de OpenAI y varios modelos de Anthropic son costosos y consumen una cantidad considerable de energía. En contraste, la comunidad de código abierto ha producido modelos competitivos, como Llama3. Además, modelos de lenguaje más pequeños y específicos para nichos, como aquellos diseñados para tareas legales, médicas o financieras, han superado a sus contrapartes propietarias. Este artículo introduce un enfoque novedoso que emplea tokens funcionales para integrar múltiples modelos de código abierto, cada uno optimizado para tareas particulares. Nuestro recién desarrollado modelo Octopus v4 aprovecha los tokens funcionales para dirigir inteligentemente las consultas de los usuarios al modelo vertical más apropiado y reformatear la consulta para lograr el mejor rendimiento. Octopus v4, una evolución de los modelos Octopus v1, v2 y v3, destaca en la selección, comprensión de parámetros y reformateo. Además, exploramos el uso de grafos como una estructura de datos versátil que coordina eficazmente múltiples modelos de código abierto aprovechando las capacidades del modelo Octopus y los tokens funcionales. Utilice nuestro repositorio de GitHub de código abierto (https://www.nexa4ai.com/) para probar los modelos Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) y contribuir a un grafo más amplio de modelos de lenguaje. Al activar modelos con menos de 10B parámetros, logramos un puntaje SOTA MMLU de 74.8 entre modelos del mismo nivel.
English
Language models have been effective in a wide range of applications, yet the
most sophisticated models are often proprietary. For example, GPT-4 by OpenAI
and various models by Anthropic are expensive and consume substantial energy.
In contrast, the open-source community has produced competitive models, like
Llama3. Furthermore, niche-specific smaller language models, such as those
tailored for legal, medical or financial tasks, have outperformed their
proprietary counterparts. This paper introduces a novel approach that employs
functional tokens to integrate multiple open-source models,
each optimized for particular tasks. Our newly developed Octopus v4 model
leverages functional tokens to intelligently direct user queries to
the most appropriate vertical model and reformat the query to achieve the best
performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models,
excels in selection and parameter understanding and reformatting. Additionally,
we explore the use of graph as a versatile data structure that effectively
coordinates multiple open-source models by harnessing the capabilities of the
Octopus model and functional tokens. Use our open-sourced GitHub
(https://www.nexa4ai.com/) to try Octopus v4 models
(https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger
graph of language models. By activating models less than 10B parameters, we
achieved SOTA MMLU score of 74.8 among the same level models.Summary
AI-Generated Summary