ChatPaper.aiChatPaper

Octopus v2: On-Gerät Sprachmodell für Superagenten

Octopus v2: On-device language model for super agent

April 2, 2024
Autoren: Wei Chen, Zhiyuan Li
cs.AI

Zusammenfassung

Sprachmodelle haben sich in einer Vielzahl von Softwareanwendungen als wirksam erwiesen, insbesondere bei Aufgaben im Zusammenhang mit automatisierten Workflows. Diese Modelle verfügen über die entscheidende Fähigkeit, Funktionen aufzurufen, was bei der Erstellung von KI-Agenten unerlässlich ist. Trotz der hohen Leistung großer Sprachmodelle in Cloud-Umgebungen werden sie häufig mit Bedenken hinsichtlich Datenschutz und Kosten in Verbindung gebracht. Aktuelle On-Device-Modelle für die Funktionsaufruf stehen vor Problemen mit Latenz und Genauigkeit. Unsere Forschung stellt eine neue Methode vor, die einem On-Device-Modell mit 2 Milliarden Parametern ermöglicht, die Leistung von GPT-4 sowohl in Genauigkeit als auch in Latenz zu übertreffen und die Kontextlänge um 95\% zu verringern. Im Vergleich zu Llama-7B mit einem auf RAG basierenden Funktionsaufrufmechanismus verbessert unsere Methode die Latenz um das 35-fache. Diese Methode reduziert die Latenz auf Niveaus, die für den Einsatz auf einer Vielzahl von Edge-Geräten in Produktionsumgebungen geeignet sind und entspricht den Leistungsanforderungen für Anwendungen in der realen Welt.
English
Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.

Summary

AI-Generated Summary

PDF598November 26, 2024