Octo-planner: Modello Linguistico su Dispositivo per Agenti Pianificatore-Azione
Octo-planner: On-device Language Model for Planner-Action Agents
June 26, 2024
Autori: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI
Abstract
Gli agenti AI stanno diventando sempre più significativi in vari domini, consentendo processi decisionali autonomi e risoluzione di problemi. Per funzionare in modo efficace, questi agenti richiedono un processo di pianificazione che determina il miglior corso d'azione e poi esegue le azioni pianificate. In questo articolo, presentiamo un framework efficiente Planner-Action su dispositivo che separa la pianificazione e l'esecuzione delle azioni in due componenti distinti: un agente pianificatore basato su Phi-3 Mini, un LLM da 3,8 miliardi di parametri ottimizzato per dispositivi edge, e un agente d'azione che utilizza il modello Octopus per l'esecuzione di funzioni. L'agente pianificatore risponde inizialmente alle query dell'utente scomponendo i compiti in una sequenza di sotto-passi, che vengono poi eseguiti dall'agente d'azione. Per ottimizzare le prestazioni su dispositivi con risorse limitate, utilizziamo il fine-tuning del modello invece dell'apprendimento in-context, riducendo i costi computazionali e il consumo energetico mentre miglioriamo i tempi di risposta. Il nostro approccio prevede l'uso di GPT-4 per generare query e risposte di pianificazione diversificate basate sulle funzioni disponibili, con successive validazioni per garantire la qualità dei dati. Abbiamo eseguito il fine-tuning del modello Phi-3 Mini su questo dataset curato, raggiungendo un tasso di successo del 97% nel nostro ambiente di test in dominio. Per affrontare le sfide della pianificazione multi-dominio, abbiamo sviluppato un metodo di addestramento multi-LoRA che unisce i pesi da LoRA addestrati su sottoinsiemi distinti di funzioni. Questo approccio consente una gestione flessibile di query complesse e multi-dominio mantenendo l'efficienza computazionale su dispositivi con risorse limitate. Per supportare ulteriori ricerche, abbiamo reso open-source i pesi del nostro modello all'indirizzo https://huggingface.co/NexaAIDev/octopus-planning. Per la demo, si prega di consultare https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling
autonomous decision-making and problem-solving. To function effectively, these
agents require a planning process that determines the best course of action and
then executes the planned actions. In this paper, we present an efficient
on-device Planner-Action framework that separates planning and action execution
into two distinct components: a planner agent based on Phi-3 Mini, a 3.8
billion parameter LLM optimized for edge devices, and an action agent using the
Octopus model for function execution. The planner agent first responds to user
queries by decomposing tasks into a sequence of sub-steps, which are then
executed by the action agent. To optimize performance on resource-constrained
devices, we employ model fine-tuning instead of in-context learning, reducing
computational costs and energy consumption while improving response times. Our
approach involves using GPT-4 to generate diverse planning queries and
responses based on available functions, with subsequent validations to ensure
data quality. We fine-tune the Phi-3 Mini model on this curated dataset,
achieving a 97\% success rate in our in-domain test environment. To address
multi-domain planning challenges, we developed a multi-LoRA training method
that merges weights from LoRAs trained on distinct function subsets. This
approach enables flexible handling of complex, multi-domain queries while
maintaining computational efficiency on resource-constrained devices. To
support further research, we have open-sourced our model weights at
https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please
refer to https://www.nexa4ai.com/octo-planner.