Octopus v4: Grafo de modelos de lenguajeOctopus v4: Graph of language models
Los modelos de lenguaje han demostrado ser efectivos en una amplia gama de aplicaciones, aunque los modelos más sofisticados suelen ser propietarios. Por ejemplo, GPT-4 de OpenAI y varios modelos de Anthropic son costosos y consumen una cantidad considerable de energía. En contraste, la comunidad de código abierto ha producido modelos competitivos, como Llama3. Además, modelos de lenguaje más pequeños y específicos para nichos, como aquellos diseñados para tareas legales, médicas o financieras, han superado a sus contrapartes propietarias. Este artículo introduce un enfoque novedoso que emplea tokens funcionales para integrar múltiples modelos de código abierto, cada uno optimizado para tareas particulares. Nuestro recién desarrollado modelo Octopus v4 aprovecha los tokens funcionales para dirigir inteligentemente las consultas de los usuarios al modelo vertical más apropiado y reformatear la consulta para lograr el mejor rendimiento. Octopus v4, una evolución de los modelos Octopus v1, v2 y v3, destaca en la selección, comprensión de parámetros y reformateo. Además, exploramos el uso de grafos como una estructura de datos versátil que coordina eficazmente múltiples modelos de código abierto aprovechando las capacidades del modelo Octopus y los tokens funcionales. Utilice nuestro repositorio de GitHub de código abierto (https://www.nexa4ai.com/) para probar los modelos Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) y contribuir a un grafo más amplio de modelos de lenguaje. Al activar modelos con menos de 10B parámetros, logramos un puntaje SOTA MMLU de 74.8 entre modelos del mismo nivel.