ChatPaper.aiChatPaper

Octo-planner : Modèle de langage embarqué pour agents planificateurs-actionneurs

Octo-planner: On-device Language Model for Planner-Action Agents

June 26, 2024
Auteurs: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI

Résumé

Les agents IA sont devenus de plus en plus importants dans divers domaines, permettant la prise de décision autonome et la résolution de problèmes. Pour fonctionner efficacement, ces agents nécessitent un processus de planification qui détermine la meilleure ligne de conduite et exécute ensuite les actions planifiées. Dans cet article, nous présentons un cadre efficace de type Planificateur-Action pour appareils embarqués, qui sépare la planification et l'exécution des actions en deux composants distincts : un agent planificateur basé sur Phi-3 Mini, un modèle de langage de 3,8 milliards de paramètres optimisé pour les appareils de périphérie, et un agent d'action utilisant le modèle Octopus pour l'exécution de fonctions. L'agent planificateur répond d'abord aux requêtes des utilisateurs en décomposant les tâches en une séquence de sous-étapes, qui sont ensuite exécutées par l'agent d'action. Pour optimiser les performances sur les appareils à ressources limitées, nous utilisons l'ajustement fin des modèles plutôt que l'apprentissage en contexte, réduisant ainsi les coûts de calcul et la consommation d'énergie tout en améliorant les temps de réponse. Notre approche consiste à utiliser GPT-4 pour générer des requêtes et des réponses de planification variées basées sur les fonctions disponibles, avec des validations ultérieures pour garantir la qualité des données. Nous ajustons finement le modèle Phi-3 Mini sur cet ensemble de données soigneusement sélectionné, atteignant un taux de réussite de 97 % dans notre environnement de test en domaine spécifique. Pour relever les défis de la planification multi-domaines, nous avons développé une méthode d'entraînement multi-LoRA qui fusionne les poids des LoRA entraînés sur des sous-ensembles de fonctions distincts. Cette approche permet une gestion flexible des requêtes complexes et multi-domaines tout en maintenant l'efficacité computationnelle sur les appareils à ressources limitées. Pour soutenir la recherche future, nous avons rendu publics les poids de notre modèle à l'adresse https://huggingface.co/NexaAIDev/octopus-planning. Pour la démonstration, veuillez consulter https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling autonomous decision-making and problem-solving. To function effectively, these agents require a planning process that determines the best course of action and then executes the planned actions. In this paper, we present an efficient on-device Planner-Action framework that separates planning and action execution into two distinct components: a planner agent based on Phi-3 Mini, a 3.8 billion parameter LLM optimized for edge devices, and an action agent using the Octopus model for function execution. The planner agent first responds to user queries by decomposing tasks into a sequence of sub-steps, which are then executed by the action agent. To optimize performance on resource-constrained devices, we employ model fine-tuning instead of in-context learning, reducing computational costs and energy consumption while improving response times. Our approach involves using GPT-4 to generate diverse planning queries and responses based on available functions, with subsequent validations to ensure data quality. We fine-tune the Phi-3 Mini model on this curated dataset, achieving a 97\% success rate in our in-domain test environment. To address multi-domain planning challenges, we developed a multi-LoRA training method that merges weights from LoRAs trained on distinct function subsets. This approach enables flexible handling of complex, multi-domain queries while maintaining computational efficiency on resource-constrained devices. To support further research, we have open-sourced our model weights at https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please refer to https://www.nexa4ai.com/octo-planner.

Summary

AI-Generated Summary

PDF495November 29, 2024