ChatPaper.aiChatPaper

TPTU-v2: Potenciando la Planificación de Tareas y el Uso de Herramientas en Agentes Basados en Modelos de Lenguaje de Gran Escala para Sistemas del Mundo Real

TPTU-v2: Boosting Task Planning and Tool Usage of Large Language Model-based Agents in Real-world Systems

November 19, 2023
Autores: Yilun Kong, Jingqing Ruan, Yihong Chen, Bin Zhang, Tianpeng Bao, Shiwei Shi, Guoqing Du, Xiaoru Hu, Hangyu Mao, Ziyue Li, Xingyu Zeng, Rui Zhao
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado competencia en abordar tareas que requieren una combinación de planificación de tareas y el uso de herramientas externas, como APIs. Sin embargo, los sistemas complejos del mundo real presentan tres desafíos prevalentes en relación con la planificación de tareas y el uso de herramientas: (1) El sistema real suele tener una amplia variedad de APIs, por lo que es imposible incluir las descripciones de todas ellas en el prompt de los LLMs debido a la limitación en la longitud de tokens; (2) el sistema real está diseñado para manejar tareas complejas, y los LLMs base difícilmente pueden planificar un orden correcto de subtareas y llamadas a APIs para tales tareas; (3) La similitud semántica y funcional entre las APIs en los sistemas reales crea desafíos tanto para los LLMs como incluso para los humanos al distinguirlas. En respuesta, este artículo introduce un marco integral destinado a mejorar las capacidades de Planificación de Tareas y Uso de Herramientas (TPTU, por sus siglas en inglés) de los agentes basados en LLMs que operan en sistemas del mundo real. Nuestro marco consta de tres componentes clave diseñados para abordar estos desafíos: (1) el Recuperador de APIs selecciona las APIs más relevantes para la tarea del usuario entre la amplia gama disponible; (2) el Ajustador de LLMs ajusta un LLM base para que el LLM ajustado sea más competente en la planificación de tareas y llamadas a APIs; (3) el Selector de Demostraciones recupera de manera adaptativa diferentes demostraciones relacionadas con APIs difíciles de distinguir, las cuales se utilizan para el aprendizaje en contexto y mejorar el rendimiento final. Validamos nuestros métodos utilizando un sistema comercial del mundo real, así como un conjunto de datos académico de código abierto, y los resultados muestran claramente la eficacia de cada componente individual, así como del marco integrado.
English
Large Language Models (LLMs) have demonstrated proficiency in addressing tasks that necessitate a combination of task planning and the usage of external tools that require a blend of task planning and the utilization of external tools, such as APIs. However, real-world complex systems present three prevalent challenges concerning task planning and tool usage: (1) The real system usually has a vast array of APIs, so it is impossible to feed the descriptions of all APIs to the prompt of LLMs as the token length is limited; (2) the real system is designed for handling complex tasks, and the base LLMs can hardly plan a correct sub-task order and API-calling order for such tasks; (3) Similar semantics and functionalities among APIs in real systems create challenges for both LLMs and even humans in distinguishing between them. In response, this paper introduces a comprehensive framework aimed at enhancing the Task Planning and Tool Usage (TPTU) abilities of LLM-based agents operating within real-world systems. Our framework comprises three key components designed to address these challenges: (1) the API Retriever selects the most pertinent APIs for the user task among the extensive array available; (2) LLM Finetuner tunes a base LLM so that the finetuned LLM can be more capable for task planning and API calling; (3) the Demo Selector adaptively retrieves different demonstrations related to hard-to-distinguish APIs, which is further used for in-context learning to boost the final performance. We validate our methods using a real-world commercial system as well as an open-sourced academic dataset, and the outcomes clearly showcase the efficacy of each individual component as well as the integrated framework.
PDF82December 15, 2024