Octopus v2: 슈퍼 에이전트를 위한 온디바이스 언어 모델
Octopus v2: On-device language model for super agent
April 2, 2024
저자: Wei Chen, Zhiyuan Li
cs.AI
초록
언어 모델은 다양한 소프트웨어 애플리케이션, 특히 자동화된 워크플로우와 관련된 작업에서 효과성을 입증해 왔습니다. 이러한 모델은 AI 에이전트를 생성하는 데 필수적인 함수 호출 능력을 갖추고 있습니다. 대규모 언어 모델이 클라우드 환경에서 높은 성능을 보이지만, 프라이버시와 비용에 대한 우려가 종종 제기됩니다. 현재 온디바이스 모델의 함수 호출은 지연 시간과 정확도 문제에 직면해 있습니다. 본 연구는 20억 개의 파라미터를 가진 온디바이스 모델이 GPT-4를 정확도와 지연 시간 모두에서 능가하고, 컨텍스트 길이를 95% 감소시키는 새로운 방법을 제시합니다. RAG 기반 함수 호출 메커니즘을 사용한 Llama-7B와 비교했을 때, 이 방법은 지연 시간을 35배 향상시킵니다. 이 방법은 다양한 엣지 디바이스에서 실제 환경에 배포하기에 적합한 수준으로 지연 시간을 줄여, 실시간 애플리케이션의 성능 요구 사항에 부합합니다.
English
Language models have shown effectiveness in a variety of software
applications, particularly in tasks related to automatic workflow. These models
possess the crucial ability to call functions, which is essential in creating
AI agents. Despite the high performance of large-scale language models in cloud
environments, they are often associated with concerns over privacy and cost.
Current on-device models for function calling face issues with latency and
accuracy. Our research presents a new method that empowers an on-device model
with 2 billion parameters to surpass the performance of GPT-4 in both accuracy
and latency, and decrease the context length by 95\%. When compared to Llama-7B
with a RAG-based function calling mechanism, our method enhances latency by
35-fold. This method reduces the latency to levels deemed suitable for
deployment across a variety of edge devices in production environments,
aligning with the performance requisites for real-world applications.Summary
AI-Generated Summary