Lemur: Гармонизация естественного языка и кода для языковых агентов
Lemur: Harmonizing Natural Language and Code for Language Agents
October 10, 2023
Авторы: Yiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu
cs.AI
Аннотация
Мы представляем Lemur и Lemur-Chat — открыто доступные языковые модели, оптимизированные как для работы с естественным языком, так и для программирования, которые служат основой для универсальных языковых агентов. Эволюция от моделей для языкового общения к функциональным языковым агентам требует, чтобы модели не только овладели навыками взаимодействия с человеком, рассуждения и планирования, но и обеспечивали закрепление в соответствующих средах. Это требует гармоничного сочетания языковых и программирующих возможностей в моделях. Lemur и Lemur-Chat предложены для решения этой задачи, демонстрируя сбалансированные способности в обеих областях, в отличие от существующих открытых моделей, которые, как правило, специализируются на чем-то одном. Благодаря тщательному предварительному обучению на корпусе с интенсивным использованием кода и тонкой настройке инструкций на данных текста и кода, наши модели достигают передовых средних показателей на различных тестах по тексту и программированию среди открытых моделей. Комплексные эксперименты демонстрируют превосходство Lemur над существующими открытыми моделями и его эффективность в различных задачах агентов, включая общение с человеком, использование инструментов и взаимодействие в полностью и частично наблюдаемых средах. Гармонизация между естественными и программными языками позволяет Lemur-Chat значительно сократить разрыв с проприетарными моделями в способностях агентов, предоставляя ключевые идеи для разработки продвинутых открытых агентов, способных рассуждать, планировать и работать в различных средах. https://github.com/OpenLemur/Lemur
English
We introduce Lemur and Lemur-Chat, openly accessible language models
optimized for both natural language and coding capabilities to serve as the
backbone of versatile language agents. The evolution from language chat models
to functional language agents demands that models not only master human
interaction, reasoning, and planning but also ensure grounding in the relevant
environments. This calls for a harmonious blend of language and coding
capabilities in the models. Lemur and Lemur-Chat are proposed to address this
necessity, demonstrating balanced proficiencies in both domains, unlike
existing open-source models that tend to specialize in either. Through
meticulous pre-training using a code-intensive corpus and instruction
fine-tuning on text and code data, our models achieve state-of-the-art averaged
performance across diverse text and coding benchmarks among open-source models.
Comprehensive experiments demonstrate Lemur's superiority over existing
open-source models and its proficiency across various agent tasks involving
human communication, tool usage, and interaction under fully- and partially-
observable environments. The harmonization between natural and programming
languages enables Lemur-Chat to significantly narrow the gap with proprietary
models on agent abilities, providing key insights into developing advanced
open-source agents adept at reasoning, planning, and operating seamlessly
across environments. https://github.com/OpenLemur/Lemur