ChatPaper.aiChatPaper

Octopus v2: Modello linguistico su dispositivo per super agenti

Octopus v2: On-device language model for super agent

April 2, 2024
Autori: Wei Chen, Zhiyuan Li
cs.AI

Abstract

I modelli linguistici hanno dimostrato efficacia in una varietà di applicazioni software, in particolare in compiti relativi al flusso di lavoro automatico. Questi modelli possiedono la capacità cruciale di chiamare funzioni, essenziale per la creazione di agenti AI. Nonostante le elevate prestazioni dei modelli linguistici su larga scala in ambienti cloud, sono spesso associati a preoccupazioni riguardanti la privacy e i costi. Gli attuali modelli on-device per la chiamata di funzioni affrontano problemi di latenza e accuratezza. La nostra ricerca presenta un nuovo metodo che consente a un modello on-device con 2 miliardi di parametri di superare le prestazioni di GPT-4 sia in termini di accuratezza che di latenza, riducendo la lunghezza del contesto del 95\%. Rispetto a Llama-7B con un meccanismo di chiamata di funzioni basato su RAG, il nostro metodo migliora la latenza di 35 volte. Questo metodo riduce la latenza a livelli ritenuti adatti per il deployment su una varietà di dispositivi edge in ambienti di produzione, allineandosi ai requisiti di prestazione per applicazioni nel mondo reale.
English
Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
PDF588November 26, 2024