Octo-planner: Taalmodel op het apparaat voor planner-actie-agenten
Octo-planner: On-device Language Model for Planner-Action Agents
June 26, 2024
Auteurs: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI
Samenvatting
AI-agents zijn steeds belangrijker geworden in verschillende domeinen, omdat ze autonome besluitvorming en probleemoplossing mogelijk maken. Om effectief te functioneren, hebben deze agents een planningsproces nodig dat de beste handelingswijze bepaalt en vervolgens de geplande acties uitvoert. In dit artikel presenteren we een efficiënt on-device Planner-Action-framework dat planning en actie-uitvoering scheidt in twee afzonderlijke componenten: een planner-agent gebaseerd op Phi-3 Mini, een LLM met 3,8 miljard parameters die is geoptimaliseerd voor edge devices, en een actie-agent die het Octopus-model gebruikt voor functie-uitvoering. De planner-agent reageert eerst op gebruikersvragen door taken op te splitsen in een reeks substappen, die vervolgens worden uitgevoerd door de actie-agent. Om de prestaties op apparaten met beperkte bronnen te optimaliseren, gebruiken we model fine-tuning in plaats van in-context learning, wat de rekenkosten en het energieverbruik vermindert en tegelijkertijd de responstijden verbetert. Onze aanpak omvat het gebruik van GPT-4 om diverse planningsvragen en -antwoorden te genereren op basis van beschikbare functies, met daaropvolgende validaties om de datakwaliteit te waarborgen. We fine-tunen het Phi-3 Mini-model op deze gecureerde dataset, wat resulteert in een slagingspercentage van 97% in onze in-domein testomgeving. Om uitdagingen op het gebied van multi-domeinplanning aan te pakken, hebben we een multi-LoRA-trainingsmethode ontwikkeld die gewichten samenvoegt van LoRA's die zijn getraind op verschillende functiesubsets. Deze aanpak maakt flexibele verwerking van complexe, multi-domein vragen mogelijk, terwijl de rekenkundige efficiëntie op apparaten met beperkte bronnen behouden blijft. Om verder onderzoek te ondersteunen, hebben we onze modelgewichten openbaar gemaakt op https://huggingface.co/NexaAIDev/octopus-planning. Voor de demo kunt u terecht op https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling
autonomous decision-making and problem-solving. To function effectively, these
agents require a planning process that determines the best course of action and
then executes the planned actions. In this paper, we present an efficient
on-device Planner-Action framework that separates planning and action execution
into two distinct components: a planner agent based on Phi-3 Mini, a 3.8
billion parameter LLM optimized for edge devices, and an action agent using the
Octopus model for function execution. The planner agent first responds to user
queries by decomposing tasks into a sequence of sub-steps, which are then
executed by the action agent. To optimize performance on resource-constrained
devices, we employ model fine-tuning instead of in-context learning, reducing
computational costs and energy consumption while improving response times. Our
approach involves using GPT-4 to generate diverse planning queries and
responses based on available functions, with subsequent validations to ensure
data quality. We fine-tune the Phi-3 Mini model on this curated dataset,
achieving a 97\% success rate in our in-domain test environment. To address
multi-domain planning challenges, we developed a multi-LoRA training method
that merges weights from LoRAs trained on distinct function subsets. This
approach enables flexible handling of complex, multi-domain queries while
maintaining computational efficiency on resource-constrained devices. To
support further research, we have open-sourced our model weights at
https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please
refer to https://www.nexa4ai.com/octo-planner.