Octo-planner: Modelo de Linguagem em Dispositivo para Agentes de Planejamento de Ações

Resumo

Agentes de IA tornaram-se cada vez mais significativos em vários domínios, possibilitando a tomada de decisões autônoma e a resolução de problemas. Para funcionarem de forma eficaz, esses agentes necessitam de um processo de planejamento que determine o melhor curso de ação e, em seguida, execute as ações planejadas. Neste artigo, apresentamos um eficiente framework Planejador-Ação embarcado que separa o planejamento e a execução de ações em dois componentes distintos: um agente planejador baseado no Phi-3 Mini, um LLM de 3,8 bilhões de parâmetros otimizado para dispositivos de borda, e um agente de ação utilizando o modelo Octopus para execução de funções. O agente planejador responde inicialmente às consultas do usuário decompondo tarefas em uma sequência de subpassos, os quais são então executados pelo agente de ação. Para otimizar o desempenho em dispositivos com recursos limitados, empregamos o ajuste fino do modelo em vez de aprendizado em contexto, reduzindo custos computacionais e consumo de energia, ao mesmo tempo que melhoramos os tempos de resposta. Nossa abordagem envolve o uso do GPT-4 para gerar consultas e respostas de planejamento diversas com base em funções disponíveis, com validações subsequentes para garantir a qualidade dos dados. Ajustamos finamente o modelo Phi-3 Mini neste conjunto de dados curado, alcançando uma taxa de sucesso de 97\% em nosso ambiente de teste de domínio. Para lidar com desafios de planejamento multidominial, desenvolvemos um método de treinamento multi-LoRA que mescla pesos de LoRAs treinadas em subconjuntos de funções distintas. Essa abordagem possibilita o manuseio flexível de consultas complexas e multidomínio, mantendo a eficiência computacional em dispositivos com recursos limitados. Para apoiar pesquisas adicionais, disponibilizamos os pesos do nosso modelo em código aberto em https://huggingface.co/NexaAIDev/octopus-planning. Para a demonstração, consulte https://www.nexa4ai.com/octo-planner.

English

AI agents have become increasingly significant in various domains, enabling autonomous decision-making and problem-solving. To function effectively, these agents require a planning process that determines the best course of action and then executes the planned actions. In this paper, we present an efficient on-device Planner-Action framework that separates planning and action execution into two distinct components: a planner agent based on Phi-3 Mini, a 3.8 billion parameter LLM optimized for edge devices, and an action agent using the Octopus model for function execution. The planner agent first responds to user queries by decomposing tasks into a sequence of sub-steps, which are then executed by the action agent. To optimize performance on resource-constrained devices, we employ model fine-tuning instead of in-context learning, reducing computational costs and energy consumption while improving response times. Our approach involves using GPT-4 to generate diverse planning queries and responses based on available functions, with subsequent validations to ensure data quality. We fine-tune the Phi-3 Mini model on this curated dataset, achieving a 97\% success rate in our in-domain test environment. To address multi-domain planning challenges, we developed a multi-LoRA training method that merges weights from LoRAs trained on distinct function subsets. This approach enables flexible handling of complex, multi-domain queries while maintaining computational efficiency on resource-constrained devices. To support further research, we have open-sourced our model weights at https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please refer to https://www.nexa4ai.com/octo-planner.

Octo-planner: Modelo de Linguagem em Dispositivo para Agentes de Planejamento de Ações

Octo-planner: On-device Language Model for Planner-Action Agents

Resumo

Support