ChatPaper.aiChatPaper

Осьмо-планировщик: Языковая модель на устройстве для агентов планировщика-действия

Octo-planner: On-device Language Model for Planner-Action Agents

June 26, 2024
Авторы: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI

Аннотация

Искусственно-интеллектные агенты стали все более значимыми в различных областях, обеспечивая автономное принятие решений и решение проблем. Для эффективной работы эти агенты требуют процесса планирования, определяющего наилучший курс действий, а затем выполняющего запланированные действия. В данной статье мы представляем эффективную структуру Planner-Action для устройств, которая разделяет планирование и выполнение действий на два отдельных компонента: агент планирования на основе Phi-3 Mini, LLM с 3,8 миллиарда параметров, оптимизированный для периферийных устройств, и агент действия, использующий модель Octopus для выполнения функций. Агент планирования первоначально отвечает на запросы пользователей, декомпозируя задачи на последовательность подшагов, которые затем выполняются агентом действия. Для оптимизации производительности на устройствах с ограниченными ресурсами мы используем донастройку модели вместо контекстного обучения, снижая вычислительные затраты и энергопотребление, улучшая время отклика. Наш подход включает использование GPT-4 для генерации разнообразных планировочных запросов и ответов на основе доступных функций, с последующей проверкой для обеспечения качества данных. Мы донастраиваем модель Phi-3 Mini на этом отобранном наборе данных, достигая 97\% успешности в нашей тестовой среде. Для решения многообластных задач планирования мы разработали метод мульти-обучения LoRA, который объединяет веса из LoRA, обученных на различных подмножествах функций. Этот подход обеспечивает гибкую обработку сложных многообластных запросов, сохраняя вычислительную эффективность на устройствах с ограниченными ресурсами. Для поддержки дальнейших исследований мы предоставляем наши веса модели в открытом доступе по адресу https://huggingface.co/NexaAIDev/octopus-planning. Для демонстрации обращайтесь по ссылке https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling autonomous decision-making and problem-solving. To function effectively, these agents require a planning process that determines the best course of action and then executes the planned actions. In this paper, we present an efficient on-device Planner-Action framework that separates planning and action execution into two distinct components: a planner agent based on Phi-3 Mini, a 3.8 billion parameter LLM optimized for edge devices, and an action agent using the Octopus model for function execution. The planner agent first responds to user queries by decomposing tasks into a sequence of sub-steps, which are then executed by the action agent. To optimize performance on resource-constrained devices, we employ model fine-tuning instead of in-context learning, reducing computational costs and energy consumption while improving response times. Our approach involves using GPT-4 to generate diverse planning queries and responses based on available functions, with subsequent validations to ensure data quality. We fine-tune the Phi-3 Mini model on this curated dataset, achieving a 97\% success rate in our in-domain test environment. To address multi-domain planning challenges, we developed a multi-LoRA training method that merges weights from LoRAs trained on distinct function subsets. This approach enables flexible handling of complex, multi-domain queries while maintaining computational efficiency on resource-constrained devices. To support further research, we have open-sourced our model weights at https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please refer to https://www.nexa4ai.com/octo-planner.

Summary

AI-Generated Summary

PDF495November 29, 2024