Octopus v2: Modelo de lenguaje en el dispositivo para superagentes
Octopus v2: On-device language model for super agent
April 2, 2024
Autores: Wei Chen, Zhiyuan Li
cs.AI
Resumen
Los modelos de lenguaje han demostrado su eficacia en una variedad de aplicaciones de software, particularmente en tareas relacionadas con flujos de trabajo automáticos. Estos modelos poseen la capacidad crucial de llamar funciones, lo cual es esencial para crear agentes de IA. A pesar del alto rendimiento de los modelos de lenguaje a gran escala en entornos en la nube, a menudo están asociados con preocupaciones sobre privacidad y costos. Los modelos actuales en dispositivos para la llamada de funciones enfrentan problemas de latencia y precisión. Nuestra investigación presenta un nuevo método que permite a un modelo en dispositivo con 2 mil millones de parámetros superar el rendimiento de GPT-4 tanto en precisión como en latencia, y reducir la longitud del contexto en un 95\%. En comparación con Llama-7B utilizando un mecanismo de llamada de funciones basado en RAG, nuestro método mejora la latencia en 35 veces. Este método reduce la latencia a niveles considerados adecuados para su implementación en una variedad de dispositivos de borde en entornos de producción, cumpliendo con los requisitos de rendimiento para aplicaciones del mundo real.
English
Language models have shown effectiveness in a variety of software
applications, particularly in tasks related to automatic workflow. These models
possess the crucial ability to call functions, which is essential in creating
AI agents. Despite the high performance of large-scale language models in cloud
environments, they are often associated with concerns over privacy and cost.
Current on-device models for function calling face issues with latency and
accuracy. Our research presents a new method that empowers an on-device model
with 2 billion parameters to surpass the performance of GPT-4 in both accuracy
and latency, and decrease the context length by 95\%. When compared to Llama-7B
with a RAG-based function calling mechanism, our method enhances latency by
35-fold. This method reduces the latency to levels deemed suitable for
deployment across a variety of edge devices in production environments,
aligning with the performance requisites for real-world applications.Summary
AI-Generated Summary