ChatPaper.aiChatPaper

Octopus v4: Grafo de modelos de lenguaje

Octopus v4: Graph of language models

April 30, 2024
Autores: Wei Chen, Zhiyuan Li
cs.AI

Resumen

Los modelos de lenguaje han demostrado ser efectivos en una amplia gama de aplicaciones, aunque los modelos más sofisticados suelen ser propietarios. Por ejemplo, GPT-4 de OpenAI y varios modelos de Anthropic son costosos y consumen una cantidad considerable de energía. En contraste, la comunidad de código abierto ha producido modelos competitivos, como Llama3. Además, modelos de lenguaje más pequeños y específicos para nichos, como aquellos diseñados para tareas legales, médicas o financieras, han superado a sus contrapartes propietarias. Este artículo introduce un enfoque novedoso que emplea tokens funcionales para integrar múltiples modelos de código abierto, cada uno optimizado para tareas particulares. Nuestro recién desarrollado modelo Octopus v4 aprovecha los tokens funcionales para dirigir inteligentemente las consultas de los usuarios al modelo vertical más apropiado y reformatear la consulta para lograr el mejor rendimiento. Octopus v4, una evolución de los modelos Octopus v1, v2 y v3, destaca en la selección, comprensión de parámetros y reformateo. Además, exploramos el uso de grafos como una estructura de datos versátil que coordina eficazmente múltiples modelos de código abierto aprovechando las capacidades del modelo Octopus y los tokens funcionales. Utilice nuestro repositorio de GitHub de código abierto (https://www.nexa4ai.com/) para probar los modelos Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) y contribuir a un grafo más amplio de modelos de lenguaje. Al activar modelos con menos de 10B parámetros, logramos un puntaje SOTA MMLU de 74.8 entre modelos del mismo nivel.
English
Language models have been effective in a wide range of applications, yet the most sophisticated models are often proprietary. For example, GPT-4 by OpenAI and various models by Anthropic are expensive and consume substantial energy. In contrast, the open-source community has produced competitive models, like Llama3. Furthermore, niche-specific smaller language models, such as those tailored for legal, medical or financial tasks, have outperformed their proprietary counterparts. This paper introduces a novel approach that employs functional tokens to integrate multiple open-source models, each optimized for particular tasks. Our newly developed Octopus v4 model leverages functional tokens to intelligently direct user queries to the most appropriate vertical model and reformat the query to achieve the best performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models, excels in selection and parameter understanding and reformatting. Additionally, we explore the use of graph as a versatile data structure that effectively coordinates multiple open-source models by harnessing the capabilities of the Octopus model and functional tokens. Use our open-sourced GitHub (https://www.nexa4ai.com/) to try Octopus v4 models (https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger graph of language models. By activating models less than 10B parameters, we achieved SOTA MMLU score of 74.8 among the same level models.

Summary

AI-Generated Summary

PDF11919December 8, 2024