Agent-FLAN : Conception de données et de méthodes pour un réglage efficace d'agents dans les modèles de langage de grande taille
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
March 19, 2024
papers.authors: Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) open source ont obtenu un grand succès dans diverses tâches de traitement du langage naturel (NLP). Cependant, ils restent nettement inférieurs aux modèles basés sur des API lorsqu'ils agissent en tant qu'agents. La question de savoir comment intégrer les capacités d'agent dans les LLMs généraux devient un problème crucial et urgent. Cet article présente d'abord trois observations clés : (1) le corpus d'entraînement actuel pour les agents est entremêlé de formats à suivre et de raisonnements d'agents, ce qui s'écarte significativement de la distribution des données de pré-entraînement ; (2) les LLMs montrent des vitesses d'apprentissage différentes pour les capacités requises par les tâches d'agents ; et (3) les approches actuelles ont des effets secondaires lorsqu'elles améliorent les capacités des agents en introduisant des hallucinations. Sur la base de ces constats, nous proposons Agent-FLAN pour affiner efficacement les modèles de langage pour les agents. Grâce à une décomposition et une reconception minutieuses du corpus d'entraînement, Agent-FLAN permet à Llama2-7B de surpasser les meilleurs travaux précédents de 3,5 % sur divers ensembles de données d'évaluation d'agents. Avec des échantillons négatifs soigneusement construits, Agent-FLAN atténue grandement les problèmes d'hallucination selon notre benchmark d'évaluation établi. De plus, il améliore de manière constante les capacités d'agent des LLMs lors de l'augmentation de la taille des modèles, tout en renforçant légèrement les capacités générales des LLMs. Le code sera disponible à l'adresse https://github.com/InternLM/Agent-FLAN.
English
Open-sourced Large Language Models (LLMs) have achieved great success in
various NLP tasks, however, they are still far inferior to API-based models
when acting as agents. How to integrate agent ability into general LLMs becomes
a crucial and urgent problem. This paper first delivers three key observations:
(1) the current agent training corpus is entangled with both formats following
and agent reasoning, which significantly shifts from the distribution of its
pre-training data; (2) LLMs exhibit different learning speeds on the
capabilities required by agent tasks; and (3) current approaches have
side-effects when improving agent abilities by introducing hallucinations.
Based on the above findings, we propose Agent-FLAN to effectively Fine-tune
LANguage models for Agents. Through careful decomposition and redesign of the
training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by
3.5\% across various agent evaluation datasets. With comprehensively
constructed negative samples, Agent-FLAN greatly alleviates the hallucination
issues based on our established evaluation benchmark. Besides, it consistently
improves the agent capability of LLMs when scaling model sizes while slightly
enhancing the general capability of LLMs. The code will be available at
https://github.com/InternLM/Agent-FLAN.