Octopus v2 : Modèle de langage embarqué pour super agent
Octopus v2: On-device language model for super agent
April 2, 2024
Auteurs: Wei Chen, Zhiyuan Li
cs.AI
Résumé
Les modèles de langage ont démontré leur efficacité dans une variété d'applications logicielles, en particulier pour les tâches liées à l'automatisation des workflows. Ces modèles possèdent la capacité cruciale d'appeler des fonctions, ce qui est essentiel pour créer des agents d'IA. Malgré les performances élevées des modèles de langage à grande échelle dans les environnements cloud, ils sont souvent associés à des préoccupations concernant la confidentialité et les coûts. Les modèles actuels pour l'appel de fonctions sur appareil rencontrent des problèmes de latence et de précision. Notre recherche présente une nouvelle méthode qui permet à un modèle sur appareil de 2 milliards de paramètres de surpasser les performances de GPT-4 en termes de précision et de latence, tout en réduisant la longueur du contexte de 95\%. Par rapport à Llama-7B avec un mécanisme d'appel de fonctions basé sur RAG, notre méthode améliore la latence d'un facteur 35. Cette méthode réduit la latence à des niveaux jugés adaptés au déploiement sur une variété d'appareils périphériques dans des environnements de production, répondant ainsi aux exigences de performance pour des applications réelles.
English
Language models have shown effectiveness in a variety of software
applications, particularly in tasks related to automatic workflow. These models
possess the crucial ability to call functions, which is essential in creating
AI agents. Despite the high performance of large-scale language models in cloud
environments, they are often associated with concerns over privacy and cost.
Current on-device models for function calling face issues with latency and
accuracy. Our research presents a new method that empowers an on-device model
with 2 billion parameters to surpass the performance of GPT-4 in both accuracy
and latency, and decrease the context length by 95\%. When compared to Llama-7B
with a RAG-based function calling mechanism, our method enhances latency by
35-fold. This method reduces the latency to levels deemed suitable for
deployment across a variety of edge devices in production environments,
aligning with the performance requisites for real-world applications.Summary
AI-Generated Summary