Agent-FLAN: Projetando Dados e Métodos de Ajuste Eficaz de Agentes para Modelos de Linguagem de Grande Escala
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
March 19, 2024
Autores: Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) de código aberto têm alcançado grande sucesso em diversas tarefas de PLN, no entanto, eles ainda são muito inferiores aos modelos baseados em API quando atuam como agentes. Como integrar a capacidade de agente em LLMs gerais torna-se um problema crucial e urgente. Este artigo apresenta inicialmente três observações-chave: (1) o corpus de treinamento de agentes atual está entrelaçado com a formatação de instruções e o raciocínio de agente, o que se desvia significativamente da distribuição dos dados de pré-treinamento; (2) LLMs exibem velocidades de aprendizado diferentes nas capacidades exigidas por tarefas de agente; e (3) as abordagens atuais têm efeitos colaterais ao melhorar as habilidades de agente, introduzindo alucinações. Com base nessas descobertas, propomos o Agent-FLAN para ajustar eficazmente modelos de linguagem para agentes. Através da decomposição e redesign cuidadosos do corpus de treinamento, o Agent-FLAN permite que o Llama2-7B supere os melhores trabalhos anteriores em 3,5% em diversos conjuntos de dados de avaliação de agentes. Com amostras negativas construídas de forma abrangente, o Agent-FLAN alivia significativamente os problemas de alucinação com base em nosso benchmark de avaliação estabelecido. Além disso, ele melhora consistentemente a capacidade de agente dos LLMs ao escalar os tamanhos dos modelos, enquanto aprimora levemente a capacidade geral dos LLMs. O código estará disponível em https://github.com/InternLM/Agent-FLAN.
English
Open-sourced Large Language Models (LLMs) have achieved great success in
various NLP tasks, however, they are still far inferior to API-based models
when acting as agents. How to integrate agent ability into general LLMs becomes
a crucial and urgent problem. This paper first delivers three key observations:
(1) the current agent training corpus is entangled with both formats following
and agent reasoning, which significantly shifts from the distribution of its
pre-training data; (2) LLMs exhibit different learning speeds on the
capabilities required by agent tasks; and (3) current approaches have
side-effects when improving agent abilities by introducing hallucinations.
Based on the above findings, we propose Agent-FLAN to effectively Fine-tune
LANguage models for Agents. Through careful decomposition and redesign of the
training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by
3.5\% across various agent evaluation datasets. With comprehensively
constructed negative samples, Agent-FLAN greatly alleviates the hallucination
issues based on our established evaluation benchmark. Besides, it consistently
improves the agent capability of LLMs when scaling model sizes while slightly
enhancing the general capability of LLMs. The code will be available at
https://github.com/InternLM/Agent-FLAN.