ChatPaper.aiChatPaper

Octopus v2: Modelo de linguagem em dispositivo para superagente

Octopus v2: On-device language model for super agent

April 2, 2024
Autores: Wei Chen, Zhiyuan Li
cs.AI

Resumo

Modelos de linguagem têm demonstrado eficácia em uma variedade de aplicações de software, particularmente em tarefas relacionadas ao fluxo de trabalho automático. Esses modelos possuem a capacidade crucial de chamar funções, o que é essencial na criação de agentes de IA. Apesar do alto desempenho dos modelos de linguagem em grande escala em ambientes de nuvem, eles frequentemente estão associados a preocupações com privacidade e custo. Os modelos atuais para chamada de funções em dispositivos enfrentam problemas de latência e precisão. Nossa pesquisa apresenta um novo método que capacita um modelo em dispositivo com 2 bilhões de parâmetros a superar o desempenho do GPT-4 tanto em precisão quanto em latência, e reduzir o comprimento do contexto em 95\%. Quando comparado ao Llama-7B com um mecanismo de chamada de funções baseado em RAG, nosso método melhora a latência em 35 vezes. Esse método reduz a latência a níveis considerados adequados para implantação em uma variedade de dispositivos de borda em ambientes de produção, alinhando-se com os requisitos de desempenho para aplicações do mundo real.
English
Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
PDF588November 26, 2024