Octo-planner: Modelo de lenguaje en el dispositivo para agentes de planificación-acción
Octo-planner: On-device Language Model for Planner-Action Agents
June 26, 2024
Autores: Wei Chen, Zhiyuan Li, Zhen Guo, Yikang Shen
cs.AI
Resumen
Los agentes de IA han adquirido una importancia creciente en diversos dominios, permitiendo la toma de decisiones autónoma y la resolución de problemas. Para funcionar de manera efectiva, estos agentes requieren un proceso de planificación que determine el mejor curso de acción y luego ejecute las acciones planificadas. En este artículo, presentamos un marco eficiente de Planificador-Acción en el dispositivo que separa la planificación y la ejecución de acciones en dos componentes distintos: un agente planificador basado en Phi-3 Mini, un modelo de lenguaje grande (LLM) de 3.8 mil millones de parámetros optimizado para dispositivos de borde, y un agente de acción que utiliza el modelo Octopus para la ejecución de funciones. El agente planificador responde primero a las consultas del usuario descomponiendo las tareas en una secuencia de subpasos, que luego son ejecutados por el agente de acción. Para optimizar el rendimiento en dispositivos con recursos limitados, empleamos el ajuste fino del modelo en lugar del aprendizaje en contexto, reduciendo los costos computacionales y el consumo de energía mientras mejoramos los tiempos de respuesta. Nuestro enfoque implica el uso de GPT-4 para generar consultas y respuestas de planificación diversas basadas en las funciones disponibles, con validaciones posteriores para garantizar la calidad de los datos. Ajustamos finamente el modelo Phi-3 Mini en este conjunto de datos curado, logrando una tasa de éxito del 97% en nuestro entorno de prueba dentro del dominio. Para abordar los desafíos de planificación en múltiples dominios, desarrollamos un método de entrenamiento multi-LoRA que combina pesos de LoRAs entrenados en subconjuntos de funciones distintos. Este enfoque permite manejar de manera flexible consultas complejas y multi-dominio mientras se mantiene la eficiencia computacional en dispositivos con recursos limitados. Para apoyar investigaciones futuras, hemos liberado los pesos de nuestro modelo en https://huggingface.co/NexaAIDev/octopus-planning. Para la demostración, consulte https://www.nexa4ai.com/octo-planner.
English
AI agents have become increasingly significant in various domains, enabling
autonomous decision-making and problem-solving. To function effectively, these
agents require a planning process that determines the best course of action and
then executes the planned actions. In this paper, we present an efficient
on-device Planner-Action framework that separates planning and action execution
into two distinct components: a planner agent based on Phi-3 Mini, a 3.8
billion parameter LLM optimized for edge devices, and an action agent using the
Octopus model for function execution. The planner agent first responds to user
queries by decomposing tasks into a sequence of sub-steps, which are then
executed by the action agent. To optimize performance on resource-constrained
devices, we employ model fine-tuning instead of in-context learning, reducing
computational costs and energy consumption while improving response times. Our
approach involves using GPT-4 to generate diverse planning queries and
responses based on available functions, with subsequent validations to ensure
data quality. We fine-tune the Phi-3 Mini model on this curated dataset,
achieving a 97\% success rate in our in-domain test environment. To address
multi-domain planning challenges, we developed a multi-LoRA training method
that merges weights from LoRAs trained on distinct function subsets. This
approach enables flexible handling of complex, multi-domain queries while
maintaining computational efficiency on resource-constrained devices. To
support further research, we have open-sourced our model weights at
https://huggingface.co/NexaAIDev/octopus-planning. For the demo, please
refer to https://www.nexa4ai.com/octo-planner.Summary
AI-Generated Summary