Agent-FLAN: Progettazione di Dati e Metodi per un Affinamento Efficace degli Agenti nei Modelli Linguistici di Grandi Dimensioni

Abstract

I modelli linguistici di grandi dimensioni (LLM) open-source hanno ottenuto un grande successo in vari compiti di NLP, tuttavia, sono ancora molto inferiori ai modelli basati su API quando agiscono come agenti. Come integrare le capacità di agente nei LLM generali diventa un problema cruciale e urgente. Questo articolo presenta innanzitutto tre osservazioni chiave: (1) il corpus di addestramento per agenti attuale è intrecciato sia con il seguire formati che con il ragionamento da agente, il che si discosta significativamente dalla distribuzione dei dati di pre-addestramento; (2) i LLM mostrano velocità di apprendimento diverse per le capacità richieste dai compiti di agente; e (3) gli approcci attuali hanno effetti collaterali quando migliorano le capacità di agente, introducendo allucinazioni. Sulla base di queste scoperte, proponiamo Agent-FLAN per effettuare un fine-tuning efficace dei modelli linguistici per agenti. Attraverso un'attenta scomposizione e riprogettazione del corpus di addestramento, Agent-FLAN consente a Llama2-7B di superare i migliori lavori precedenti del 3,5% su vari dataset di valutazione per agenti. Con campioni negativi costruiti in modo completo, Agent-FLAN allevia notevolmente i problemi di allucinazione basandosi sul nostro benchmark di valutazione stabilito. Inoltre, migliora costantemente la capacità di agente dei LLM quando si scala la dimensione dei modelli, migliorando leggermente anche le capacità generali dei LLM. Il codice sarà disponibile su https://github.com/InternLM/Agent-FLAN.

English

Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5\% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Agent-FLAN: Progettazione di Dati e Metodi per un Affinamento Efficace degli Agenti nei Modelli Linguistici di Grandi Dimensioni

Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Abstract

Support