Agent-FLAN: Het Ontwerpen van Data en Methoden voor Effectieve Agentafstemming bij Grote Taalmodellen
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
March 19, 2024
Auteurs: Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao
cs.AI
Samenvatting
Open-source grote taalmodellen (LLMs) hebben grote successen behaald in diverse NLP-taken, maar ze zijn nog steeds verreweg inferieur aan API-gebaseerde modellen wanneer ze als agents functioneren. Het integreren van agentvaardigheden in algemene LLMs wordt daarom een cruciaal en urgent probleem. Dit artikel presenteert eerst drie belangrijke observaties: (1) het huidige trainingscorpus voor agents is verweven met zowel het volgen van formaten als agentredenering, wat aanzienlijk afwijkt van de verdeling van de pre-trainingsdata; (2) LLMs vertonen verschillende leersnelheden voor de vaardigheden die vereist zijn door agenttaken; en (3) huidige benaderingen hebben neveneffecten bij het verbeteren van agentvaardigheden door hallucinaties te introduceren. Op basis van deze bevindingen stellen we Agent-FLAN voor om taalmodellen effectief te fine-tunen voor agents. Door zorgvuldige decompositie en herontwerp van het trainingscorpus stelt Agent-FLAN Llama2-7B in staat om eerdere beste werken met 3,5\% te overtreffen op diverse agent-evaluatiedatasets. Met uitgebreid geconstrueerde negatieve voorbeelden vermindert Agent-FLAN de hallucinatieproblemen aanzienlijk op basis van ons opgezette evaluatiebenchmark. Daarnaast verbetert het consistent de agentvaardigheden van LLMs bij het opschalen van modelgroottes, terwijl het tegelijkertijd de algemene capaciteiten van LLMs lichtelijk versterkt. De code zal beschikbaar zijn op https://github.com/InternLM/Agent-FLAN.
English
Open-sourced Large Language Models (LLMs) have achieved great success in
various NLP tasks, however, they are still far inferior to API-based models
when acting as agents. How to integrate agent ability into general LLMs becomes
a crucial and urgent problem. This paper first delivers three key observations:
(1) the current agent training corpus is entangled with both formats following
and agent reasoning, which significantly shifts from the distribution of its
pre-training data; (2) LLMs exhibit different learning speeds on the
capabilities required by agent tasks; and (3) current approaches have
side-effects when improving agent abilities by introducing hallucinations.
Based on the above findings, we propose Agent-FLAN to effectively Fine-tune
LANguage models for Agents. Through careful decomposition and redesign of the
training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by
3.5\% across various agent evaluation datasets. With comprehensively
constructed negative samples, Agent-FLAN greatly alleviates the hallucination
issues based on our established evaluation benchmark. Besides, it consistently
improves the agent capability of LLMs when scaling model sizes while slightly
enhancing the general capability of LLMs. The code will be available at
https://github.com/InternLM/Agent-FLAN.