Okto-Planer: On-Gerät Sprachmodell für Planer-Aktionsagenten
Octo-planner: On-device Language Model for Planner-Action Agents
June 26, 2024
Autoren: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI
Zusammenfassung
KI-Agenten sind in verschiedenen Bereichen zunehmend bedeutsam geworden, da sie autonomes Entscheidungsfindung und Problemlösung ermöglichen. Um effektiv zu funktionieren, benötigen diese Agenten einen Planungsprozess, der den besten Handlungsverlauf bestimmt und dann die geplanten Aktionen ausführt. In diesem Papier präsentieren wir ein effizientes On-Device Planner-Action-Framework, das die Planung und die Aktionsausführung in zwei separaten Komponenten aufteilt: einen Planungsagenten basierend auf Phi-3 Mini, einem 3,8 Milliarden Parameter LLM, optimiert für Edge-Geräte, und einen Aktionsagenten, der das Octopus-Modell für die Funktionsausführung verwendet. Der Planungsagent reagiert zunächst auf Benutzeranfragen, indem er Aufgaben in eine Sequenz von Teilschritten zerlegt, die dann vom Aktionsagenten ausgeführt werden. Um die Leistung auf ressourcenbeschränkten Geräten zu optimieren, setzen wir auf Modellfeinabstimmung anstelle von In-Context-Lernen, um die Rechenkosten und den Energieverbrauch zu reduzieren und die Reaktionszeiten zu verbessern. Unser Ansatz beinhaltet die Verwendung von GPT-4 zur Generierung vielfältiger Planungsanfragen und -antworten basierend auf verfügbaren Funktionen, mit anschließenden Validierungen zur Sicherstellung der Datenqualität. Wir feinabstimmen das Phi-3 Mini-Modell auf diesem kuratierten Datensatz und erreichen eine Erfolgsquote von 97\% in unserer In-Domain-Testumgebung. Um Herausforderungen bei der Multi-Domain-Planung anzugehen, haben wir eine Multi-LoRA-Trainingsmethode entwickelt, die Gewichte von LoRAs zusammenführt, die auf unterschiedlichen Funktionsteilmengen trainiert wurden. Dieser Ansatz ermöglicht eine flexible Bearbeitung komplexer, multi-domanialer Anfragen und gewährleistet gleichzeitig eine hohe Rechenkapazität auf ressourcenbeschränkten Geräten. Zur Unterstützung weiterer Forschung haben wir unsere Modellgewichte unter https://huggingface.co/NexaAIDev/octopus-planning Open Source gemacht. Für die Demo verweisen wir auf https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling
autonomous decision-making and problem-solving. To function effectively, these
agents require a planning process that determines the best course of action and
then executes the planned actions. In this paper, we present an efficient
on-device Planner-Action framework that separates planning and action execution
into two distinct components: a planner agent based on Phi-3 Mini, a 3.8
billion parameter LLM optimized for edge devices, and an action agent using the
Octopus model for function execution. The planner agent first responds to user
queries by decomposing tasks into a sequence of sub-steps, which are then
executed by the action agent. To optimize performance on resource-constrained
devices, we employ model fine-tuning instead of in-context learning, reducing
computational costs and energy consumption while improving response times. Our
approach involves using GPT-4 to generate diverse planning queries and
responses based on available functions, with subsequent validations to ensure
data quality. We fine-tune the Phi-3 Mini model on this curated dataset,
achieving a 97\% success rate in our in-domain test environment. To address
multi-domain planning challenges, we developed a multi-LoRA training method
that merges weights from LoRAs trained on distinct function subsets. This
approach enables flexible handling of complex, multi-domain queries while
maintaining computational efficiency on resource-constrained devices. To
support further research, we have open-sourced our model weights at
https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please
refer to https://www.nexa4ai.com/octo-planner.Summary
AI-Generated Summary