Octo-planner: Modelo de Linguagem em Dispositivo para Agentes de Planejamento de Ações
Octo-planner: On-device Language Model for Planner-Action Agents
June 26, 2024
Autores: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI
Resumo
Agentes de IA tornaram-se cada vez mais significativos em vários domínios, possibilitando a tomada de decisões autônoma e a resolução de problemas. Para funcionarem de forma eficaz, esses agentes necessitam de um processo de planejamento que determine o melhor curso de ação e, em seguida, execute as ações planejadas. Neste artigo, apresentamos um eficiente framework Planejador-Ação embarcado que separa o planejamento e a execução de ações em dois componentes distintos: um agente planejador baseado no Phi-3 Mini, um LLM de 3,8 bilhões de parâmetros otimizado para dispositivos de borda, e um agente de ação utilizando o modelo Octopus para execução de funções. O agente planejador responde inicialmente às consultas do usuário decompondo tarefas em uma sequência de subpassos, os quais são então executados pelo agente de ação. Para otimizar o desempenho em dispositivos com recursos limitados, empregamos o ajuste fino do modelo em vez de aprendizado em contexto, reduzindo custos computacionais e consumo de energia, ao mesmo tempo que melhoramos os tempos de resposta. Nossa abordagem envolve o uso do GPT-4 para gerar consultas e respostas de planejamento diversas com base em funções disponíveis, com validações subsequentes para garantir a qualidade dos dados. Ajustamos finamente o modelo Phi-3 Mini neste conjunto de dados curado, alcançando uma taxa de sucesso de 97\% em nosso ambiente de teste de domínio. Para lidar com desafios de planejamento multidominial, desenvolvemos um método de treinamento multi-LoRA que mescla pesos de LoRAs treinadas em subconjuntos de funções distintas. Essa abordagem possibilita o manuseio flexível de consultas complexas e multidomínio, mantendo a eficiência computacional em dispositivos com recursos limitados. Para apoiar pesquisas adicionais, disponibilizamos os pesos do nosso modelo em código aberto em https://huggingface.co/NexaAIDev/octopus-planning. Para a demonstração, consulte https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling
autonomous decision-making and problem-solving. To function effectively, these
agents require a planning process that determines the best course of action and
then executes the planned actions. In this paper, we present an efficient
on-device Planner-Action framework that separates planning and action execution
into two distinct components: a planner agent based on Phi-3 Mini, a 3.8
billion parameter LLM optimized for edge devices, and an action agent using the
Octopus model for function execution. The planner agent first responds to user
queries by decomposing tasks into a sequence of sub-steps, which are then
executed by the action agent. To optimize performance on resource-constrained
devices, we employ model fine-tuning instead of in-context learning, reducing
computational costs and energy consumption while improving response times. Our
approach involves using GPT-4 to generate diverse planning queries and
responses based on available functions, with subsequent validations to ensure
data quality. We fine-tune the Phi-3 Mini model on this curated dataset,
achieving a 97\% success rate in our in-domain test environment. To address
multi-domain planning challenges, we developed a multi-LoRA training method
that merges weights from LoRAs trained on distinct function subsets. This
approach enables flexible handling of complex, multi-domain queries while
maintaining computational efficiency on resource-constrained devices. To
support further research, we have open-sourced our model weights at
https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please
refer to https://www.nexa4ai.com/octo-planner.