Lemur : Harmonisation du langage naturel et du code pour les agents linguistiques
Lemur: Harmonizing Natural Language and Code for Language Agents
October 10, 2023
Auteurs: Yiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu
cs.AI
Résumé
Nous présentons Lemur et Lemur-Chat, des modèles de langage librement accessibles optimisés à la fois pour les capacités en langage naturel et en programmation, conçus pour servir de fondation à des agents linguistiques polyvalents. L'évolution des modèles de conversation linguistique vers des agents linguistiques fonctionnels exige que ces modèles maîtrisent non seulement l'interaction humaine, le raisonnement et la planification, mais aussi qu'ils s'ancrent dans les environnements pertinents. Cela nécessite une harmonisation entre les capacités linguistiques et de programmation dans les modèles. Lemur et Lemur-Chat sont proposés pour répondre à cette nécessité, démontrant des compétences équilibrées dans les deux domaines, contrairement aux modèles open-source existants qui tendent à se spécialiser dans l'un ou l'autre. Grâce à un pré-entraînement minutieux utilisant un corpus riche en code et à un ajustement fin sur des données textuelles et de programmation, nos modèles atteignent des performances de pointe en moyenne sur divers benchmarks de texte et de programmation parmi les modèles open-source. Des expériences approfondies démontrent la supériorité de Lemur par rapport aux modèles open-source existants et sa compétence dans diverses tâches d'agent impliquant la communication humaine, l'utilisation d'outils et l'interaction dans des environnements entièrement et partiellement observables. L'harmonisation entre les langages naturels et de programmation permet à Lemur-Chat de réduire significativement l'écart avec les modèles propriétaires en termes de capacités d'agent, offrant des insights clés pour le développement d'agents open-source avancés, capables de raisonner, planifier et opérer de manière fluide dans divers environnements. https://github.com/OpenLemur/Lemur
English
We introduce Lemur and Lemur-Chat, openly accessible language models
optimized for both natural language and coding capabilities to serve as the
backbone of versatile language agents. The evolution from language chat models
to functional language agents demands that models not only master human
interaction, reasoning, and planning but also ensure grounding in the relevant
environments. This calls for a harmonious blend of language and coding
capabilities in the models. Lemur and Lemur-Chat are proposed to address this
necessity, demonstrating balanced proficiencies in both domains, unlike
existing open-source models that tend to specialize in either. Through
meticulous pre-training using a code-intensive corpus and instruction
fine-tuning on text and code data, our models achieve state-of-the-art averaged
performance across diverse text and coding benchmarks among open-source models.
Comprehensive experiments demonstrate Lemur's superiority over existing
open-source models and its proficiency across various agent tasks involving
human communication, tool usage, and interaction under fully- and partially-
observable environments. The harmonization between natural and programming
languages enables Lemur-Chat to significantly narrow the gap with proprietary
models on agent abilities, providing key insights into developing advanced
open-source agents adept at reasoning, planning, and operating seamlessly
across environments. https://github.com/OpenLemur/Lemur