Octopus v2: Taalmodel op het apparaat voor superagenten
Octopus v2: On-device language model for super agent
April 2, 2024
Auteurs: Wei Chen, Zhiyuan Li
cs.AI
Samenvatting
Taalmodellen hebben hun effectiviteit bewezen in diverse softwaretoepassingen, met name bij taken die verband houden met automatische workflows. Deze modellen beschikken over de cruciale mogelijkheid om functies aan te roepen, wat essentieel is voor het creëren van AI-agents. Ondanks de hoge prestaties van grootschalige taalmodellen in cloudomgevingen, gaan ze vaak gepaard met zorgen over privacy en kosten. Huidige on-device modellen voor het aanroepen van functies kampen met problemen op het gebied van latentie en nauwkeurigheid. Ons onderzoek presenteert een nieuwe methode die een on-device model met 2 miljard parameters in staat stelt om de prestaties van GPT-4 te overtreffen op zowel nauwkeurigheid als latentie, en de contextlengte met 95\% te verminderen. In vergelijking met Llama-7B met een RAG-gebaseerd functieaanroepmechanisme, verbetert onze methode de latentie met een factor 35. Deze methode reduceert de latentie tot niveaus die geschikt worden geacht voor implementatie op diverse edge-apparaten in productieomgevingen, in lijn met de prestatievereisten voor real-world toepassingen.
English
Language models have shown effectiveness in a variety of software
applications, particularly in tasks related to automatic workflow. These models
possess the crucial ability to call functions, which is essential in creating
AI agents. Despite the high performance of large-scale language models in cloud
environments, they are often associated with concerns over privacy and cost.
Current on-device models for function calling face issues with latency and
accuracy. Our research presents a new method that empowers an on-device model
with 2 billion parameters to surpass the performance of GPT-4 in both accuracy
and latency, and decrease the context length by 95\%. When compared to Llama-7B
with a RAG-based function calling mechanism, our method enhances latency by
35-fold. This method reduces the latency to levels deemed suitable for
deployment across a variety of edge devices in production environments,
aligning with the performance requisites for real-world applications.