Осьминог v2: Языковая модель на устройстве для суперагента
Octopus v2: On-device language model for super agent
April 2, 2024
Авторы: Wei Chen, Zhiyuan Li
cs.AI
Аннотация
Языковые модели показали свою эффективность в различных программных приложениях, особенно в задачах, связанных с автоматизацией рабочего процесса. Эти модели обладают важной способностью вызывать функции, что необходимо для создания искусственного интеллекта. Несмотря на высокую производительность крупномасштабных языковых моделей в облачных средах, они часто ассоциируются с опасениями по поводу конфиденциальности и затрат. Текущие модели для вызова функций на устройстве сталкиваются с проблемами задержки и точности. Наше исследование представляет новый метод, который позволяет устройственной модели с 2 миллиардами параметров превзойти производительность GPT-4 как по точности, так и по задержке, и сократить длину контекста на 95\%. По сравнению с Llama-7B с механизмом вызова функций на основе RAG, наш метод увеличивает задержку в 35 раз. Этот метод снижает задержку до уровней, считающихся приемлемыми для развертывания на различных устройствах на краю в производственных средах, соответствуя требованиям производительности для прикладных приложений в реальном мире.
English
Language models have shown effectiveness in a variety of software
applications, particularly in tasks related to automatic workflow. These models
possess the crucial ability to call functions, which is essential in creating
AI agents. Despite the high performance of large-scale language models in cloud
environments, they are often associated with concerns over privacy and cost.
Current on-device models for function calling face issues with latency and
accuracy. Our research presents a new method that empowers an on-device model
with 2 billion parameters to surpass the performance of GPT-4 in both accuracy
and latency, and decrease the context length by 95\%. When compared to Llama-7B
with a RAG-based function calling mechanism, our method enhances latency by
35-fold. This method reduces the latency to levels deemed suitable for
deployment across a variety of edge devices in production environments,
aligning with the performance requisites for real-world applications.Summary
AI-Generated Summary