Octopus v4: Grafo di modelli linguistici

Abstract

I modelli linguistici si sono dimostrati efficaci in un'ampia gamma di applicazioni, tuttavia i modelli più sofisticati sono spesso proprietari. Ad esempio, GPT-4 di OpenAI e vari modelli di Anthropic sono costosi e consumano una quantità significativa di energia. Al contrario, la comunità open-source ha prodotto modelli competitivi, come Llama3. Inoltre, modelli linguistici più piccoli e specifici per nicchie, come quelli progettati per compiti legali, medici o finanziari, hanno superato le loro controparti proprietarie. Questo articolo introduce un nuovo approccio che utilizza token funzionali per integrare più modelli open-source, ciascuno ottimizzato per compiti specifici. Il nostro nuovo modello Octopus v4 sfrutta i token funzionali per indirizzare in modo intelligente le query degli utenti al modello verticale più appropriato e riformattare la query per ottenere le migliori prestazioni. Octopus v4, un'evoluzione dei modelli Octopus v1, v2 e v3, eccelle nella selezione, nella comprensione dei parametri e nella riformattazione. Inoltre, esploriamo l'uso del grafo come struttura dati versatile che coordina efficacemente più modelli open-source sfruttando le capacità del modello Octopus e dei token funzionali. Utilizza il nostro GitHub open-source (https://www.nexa4ai.com/) per provare i modelli Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) e contribuire a un grafo più ampio di modelli linguistici. Attivando modelli con meno di 10 miliardi di parametri, abbiamo ottenuto un punteggio MMLU SOTA di 74,8 tra i modelli dello stesso livello.

English

Language models have been effective in a wide range of applications, yet the most sophisticated models are often proprietary. For example, GPT-4 by OpenAI and various models by Anthropic are expensive and consume substantial energy. In contrast, the open-source community has produced competitive models, like Llama3. Furthermore, niche-specific smaller language models, such as those tailored for legal, medical or financial tasks, have outperformed their proprietary counterparts. This paper introduces a novel approach that employs functional tokens to integrate multiple open-source models, each optimized for particular tasks. Our newly developed Octopus v4 model leverages functional tokens to intelligently direct user queries to the most appropriate vertical model and reformat the query to achieve the best performance. Octopus v4, an evolution of the Octopus v1, v2, and v3 models, excels in selection and parameter understanding and reformatting. Additionally, we explore the use of graph as a versatile data structure that effectively coordinates multiple open-source models by harnessing the capabilities of the Octopus model and functional tokens. Use our open-sourced GitHub (https://www.nexa4ai.com/) to try Octopus v4 models (https://huggingface.co/NexaAIDev/Octopus-v4), and contrite to a larger graph of language models. By activating models less than 10B parameters, we achieved SOTA MMLU score of 74.8 among the same level models.

Octopus v4: Grafo di modelli linguistici

Octopus v4: Graph of language models

Abstract

Support