Агент-FLAN: Проектирование данных и методов эффективной настройки агента для больших языковых моделей

Аннотация

Открытые модели больших языков (LLM) достигли больших успехов в различных задачах обработки естественного языка (NLP), однако они все еще значительно уступают моделям, основанным на API, при действии в качестве агентов. Как интегрировать способности агента в общие LLM становится критической и насущной проблемой. В данной статье вначале представлены три ключевых наблюдения: (1) текущий корпус обучения агента запутан как форматами следования, так и рассуждения агента, что значительно отличается от распределения его данных предварительного обучения; (2) LLM проявляют различные скорости обучения по требуемым способностям для задач агента; и (3) текущие подходы имеют побочные эффекты при улучшении способностей агента путем введения галлюцинаций. Исходя из вышеуказанных результатов, мы предлагаем Agent-FLAN для эффективной донастройки языковых моделей для агентов. Через тщательное декомпозирование и переработку корпуса обучения, Agent-FLAN позволяет модели Llama2-7B превзойти предыдущие лучшие работы на 3.5\% по различным наборам данных для оценки агента. С помощью комплексно составленных отрицательных примеров Agent-FLAN значительно смягчает проблемы галлюцинаций на основе нашего установленного бенчмарка оценки. Кроме того, он последовательно улучшает способности агента LLM при увеличении размеров модели, при этом незначительно улучшая общие способности LLM. Код будет доступен по адресу https://github.com/InternLM/Agent-FLAN.

English

Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5\% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Агент-FLAN: Проектирование данных и методов эффективной настройки агента для больших языковых моделей

Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Аннотация

Support