Octopus v2: Modelo de lenguaje en el dispositivo para superagentes

Resumen

Los modelos de lenguaje han demostrado su eficacia en una variedad de aplicaciones de software, particularmente en tareas relacionadas con flujos de trabajo automáticos. Estos modelos poseen la capacidad crucial de llamar funciones, lo cual es esencial para crear agentes de IA. A pesar del alto rendimiento de los modelos de lenguaje a gran escala en entornos en la nube, a menudo están asociados con preocupaciones sobre privacidad y costos. Los modelos actuales en dispositivos para la llamada de funciones enfrentan problemas de latencia y precisión. Nuestra investigación presenta un nuevo método que permite a un modelo en dispositivo con 2 mil millones de parámetros superar el rendimiento de GPT-4 tanto en precisión como en latencia, y reducir la longitud del contexto en un 95\%. En comparación con Llama-7B utilizando un mecanismo de llamada de funciones basado en RAG, nuestro método mejora la latencia en 35 veces. Este método reduce la latencia a niveles considerados adecuados para su implementación en una variedad de dispositivos de borde en entornos de producción, cumpliendo con los requisitos de rendimiento para aplicaciones del mundo real.

English

Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.

Octopus v2: Modelo de lenguaje en el dispositivo para superagentes

Octopus v2: On-device language model for super agent

Resumen

Support