Agent-FLAN: Entwurf von Daten und Methoden zur effektiven Agentenanpassung für große Sprachmodelle
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
March 19, 2024
papers.authors: Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao
cs.AI
papers.abstract
Open-Source Large Language Models (LLMs) haben große Erfolge in verschiedenen NLP-Aufgaben erzielt, sind jedoch immer noch weit unterlegen im Vergleich zu API-basierten Modellen, wenn sie als Agenten agieren. Die Integration von Agentenfähigkeiten in allgemeine LLMs wird zu einem entscheidenden und dringenden Problem. Diese Arbeit liefert zunächst drei Schlüsselbeobachtungen: (1) Der aktuelle Agenten-Trainingskorpus ist mit sowohl dem Format des Folgens als auch dem Agenten-Argumentieren verflochten, was sich signifikant von der Verteilung seiner Vor-Trainingsdaten unterscheidet; (2) LLMs zeigen unterschiedliche Lerngeschwindigkeiten bei den für Agentenaufgaben erforderlichen Fähigkeiten; und (3) aktuelle Ansätze haben Nebenwirkungen, wenn sie die Agentenfähigkeiten durch die Einführung von Halluzinationen verbessern. Basierend auf den oben genannten Erkenntnissen schlagen wir Agent-FLAN vor, um Sprachmodelle effektiv für Agenten feinzustimmen. Durch eine sorgfältige Dekomposition und Neugestaltung des Trainingskorpus ermöglicht Agent-FLAN Llama2-7B, die bisher besten Arbeiten um 3,5\% in verschiedenen Agenten-Evaluierungsdatensätzen zu übertreffen. Mit umfassend konstruierten negativen Beispielen mildert Agent-FLAN die Halluzinationsprobleme erheblich auf Basis unseres etablierten Evaluierungsmaßstabs. Darüber hinaus verbessert es kontinuierlich die Agentenfähigkeit von LLMs beim Skalieren der Modellgrößen und steigert leicht die allgemeine Fähigkeit von LLMs. Der Code wird unter https://github.com/InternLM/Agent-FLAN verfügbar sein.
English
Open-sourced Large Language Models (LLMs) have achieved great success in
various NLP tasks, however, they are still far inferior to API-based models
when acting as agents. How to integrate agent ability into general LLMs becomes
a crucial and urgent problem. This paper first delivers three key observations:
(1) the current agent training corpus is entangled with both formats following
and agent reasoning, which significantly shifts from the distribution of its
pre-training data; (2) LLMs exhibit different learning speeds on the
capabilities required by agent tasks; and (3) current approaches have
side-effects when improving agent abilities by introducing hallucinations.
Based on the above findings, we propose Agent-FLAN to effectively Fine-tune
LANguage models for Agents. Through careful decomposition and redesign of the
training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by
3.5\% across various agent evaluation datasets. With comprehensively
constructed negative samples, Agent-FLAN greatly alleviates the hallucination
issues based on our established evaluation benchmark. Besides, it consistently
improves the agent capability of LLMs when scaling model sizes while slightly
enhancing the general capability of LLMs. The code will be available at
https://github.com/InternLM/Agent-FLAN.