ChatPaper.aiChatPaper

Agent-FLAN: Diseño de Datos y Métodos para el Ajuste Efectivo de Agentes en Modelos de Lenguaje de Gran Escala

Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

March 19, 2024
Autores: Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) de código abierto han logrado un gran éxito en diversas tareas de Procesamiento del Lenguaje Natural (NLP), sin embargo, aún están muy por debajo de los modelos basados en API cuando actúan como agentes. Cómo integrar la capacidad de agente en los LLMs generales se convierte en un problema crucial y urgente. Este artículo presenta primero tres observaciones clave: (1) el corpus de entrenamiento actual para agentes está entrelazado tanto con el seguimiento de formatos como con el razonamiento de agentes, lo que se desvía significativamente de la distribución de sus datos de preentrenamiento; (2) los LLMs exhiben diferentes velocidades de aprendizaje en las capacidades requeridas por las tareas de agente; y (3) los enfoques actuales tienen efectos secundarios al mejorar las habilidades de los agentes, introduciendo alucinaciones. Basándonos en estos hallazgos, proponemos Agent-FLAN para ajustar eficazmente los modelos de lenguaje para agentes. A través de una cuidadosa descomposición y rediseño del corpus de entrenamiento, Agent-FLAN permite que Llama2-7B supere los trabajos previos más destacados en un 3.5% en varios conjuntos de datos de evaluación de agentes. Con muestras negativas construidas de manera exhaustiva, Agent-FLAN mitiga en gran medida los problemas de alucinación según nuestro benchmark de evaluación establecido. Además, mejora consistentemente la capacidad de agente de los LLMs al escalar el tamaño de los modelos, mientras que también mejora ligeramente la capacidad general de los LLMs. El código estará disponible en https://github.com/InternLM/Agent-FLAN.
English
Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5\% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.
PDF181December 15, 2024