Агент-FLAN: Проектирование данных и методов эффективной настройки агента для больших языковых моделей
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models
March 19, 2024
Авторы: Zehui Chen, Kuikun Liu, Qiuchen Wang, Wenwei Zhang, Jiangning Liu, Dahua Lin, Kai Chen, Feng Zhao
cs.AI
Аннотация
Открытые модели больших языков (LLM) достигли больших успехов в различных задачах обработки естественного языка (NLP), однако они все еще значительно уступают моделям, основанным на API, при действии в качестве агентов. Как интегрировать способности агента в общие LLM становится критической и насущной проблемой. В данной статье вначале представлены три ключевых наблюдения: (1) текущий корпус обучения агента запутан как форматами следования, так и рассуждения агента, что значительно отличается от распределения его данных предварительного обучения; (2) LLM проявляют различные скорости обучения по требуемым способностям для задач агента; и (3) текущие подходы имеют побочные эффекты при улучшении способностей агента путем введения галлюцинаций. Исходя из вышеуказанных результатов, мы предлагаем Agent-FLAN для эффективной донастройки языковых моделей для агентов. Через тщательное декомпозирование и переработку корпуса обучения, Agent-FLAN позволяет модели Llama2-7B превзойти предыдущие лучшие работы на 3.5\% по различным наборам данных для оценки агента. С помощью комплексно составленных отрицательных примеров Agent-FLAN значительно смягчает проблемы галлюцинаций на основе нашего установленного бенчмарка оценки. Кроме того, он последовательно улучшает способности агента LLM при увеличении размеров модели, при этом незначительно улучшая общие способности LLM. Код будет доступен по адресу https://github.com/InternLM/Agent-FLAN.
English
Open-sourced Large Language Models (LLMs) have achieved great success in
various NLP tasks, however, they are still far inferior to API-based models
when acting as agents. How to integrate agent ability into general LLMs becomes
a crucial and urgent problem. This paper first delivers three key observations:
(1) the current agent training corpus is entangled with both formats following
and agent reasoning, which significantly shifts from the distribution of its
pre-training data; (2) LLMs exhibit different learning speeds on the
capabilities required by agent tasks; and (3) current approaches have
side-effects when improving agent abilities by introducing hallucinations.
Based on the above findings, we propose Agent-FLAN to effectively Fine-tune
LANguage models for Agents. Through careful decomposition and redesign of the
training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by
3.5\% across various agent evaluation datasets. With comprehensively
constructed negative samples, Agent-FLAN greatly alleviates the hallucination
issues based on our established evaluation benchmark. Besides, it consistently
improves the agent capability of LLMs when scaling model sizes while slightly
enhancing the general capability of LLMs. The code will be available at
https://github.com/InternLM/Agent-FLAN.