Осьмо-планировщик: Языковая модель на устройстве для агентов планировщика-действия
Octo-planner: On-device Language Model for Planner-Action Agents
June 26, 2024
Авторы: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI
Аннотация
Искусственно-интеллектные агенты стали все более значимыми в различных областях, обеспечивая автономное принятие решений и решение проблем. Для эффективной работы эти агенты требуют процесса планирования, определяющего наилучший курс действий, а затем выполняющего запланированные действия. В данной статье мы представляем эффективную структуру Planner-Action для устройств, которая разделяет планирование и выполнение действий на два отдельных компонента: агент планирования на основе Phi-3 Mini, LLM с 3,8 миллиарда параметров, оптимизированный для периферийных устройств, и агент действия, использующий модель Octopus для выполнения функций. Агент планирования первоначально отвечает на запросы пользователей, декомпозируя задачи на последовательность подшагов, которые затем выполняются агентом действия. Для оптимизации производительности на устройствах с ограниченными ресурсами мы используем донастройку модели вместо контекстного обучения, снижая вычислительные затраты и энергопотребление, улучшая время отклика. Наш подход включает использование GPT-4 для генерации разнообразных планировочных запросов и ответов на основе доступных функций, с последующей проверкой для обеспечения качества данных. Мы донастраиваем модель Phi-3 Mini на этом отобранном наборе данных, достигая 97\% успешности в нашей тестовой среде. Для решения многообластных задач планирования мы разработали метод мульти-обучения LoRA, который объединяет веса из LoRA, обученных на различных подмножествах функций. Этот подход обеспечивает гибкую обработку сложных многообластных запросов, сохраняя вычислительную эффективность на устройствах с ограниченными ресурсами. Для поддержки дальнейших исследований мы предоставляем наши веса модели в открытом доступе по адресу https://huggingface.co/NexaAIDev/octopus-planning. Для демонстрации обращайтесь по ссылке https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling
autonomous decision-making and problem-solving. To function effectively, these
agents require a planning process that determines the best course of action and
then executes the planned actions. In this paper, we present an efficient
on-device Planner-Action framework that separates planning and action execution
into two distinct components: a planner agent based on Phi-3 Mini, a 3.8
billion parameter LLM optimized for edge devices, and an action agent using the
Octopus model for function execution. The planner agent first responds to user
queries by decomposing tasks into a sequence of sub-steps, which are then
executed by the action agent. To optimize performance on resource-constrained
devices, we employ model fine-tuning instead of in-context learning, reducing
computational costs and energy consumption while improving response times. Our
approach involves using GPT-4 to generate diverse planning queries and
responses based on available functions, with subsequent validations to ensure
data quality. We fine-tune the Phi-3 Mini model on this curated dataset,
achieving a 97\% success rate in our in-domain test environment. To address
multi-domain planning challenges, we developed a multi-LoRA training method
that merges weights from LoRAs trained on distinct function subsets. This
approach enables flexible handling of complex, multi-domain queries while
maintaining computational efficiency on resource-constrained devices. To
support further research, we have open-sourced our model weights at
https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please
refer to https://www.nexa4ai.com/octo-planner.Summary
AI-Generated Summary