Lemur: Harmonizando Linguagem Natural e Código para Agentes de Linguagem
Lemur: Harmonizing Natural Language and Code for Language Agents
October 10, 2023
Autores: Yiheng Xu, Hongjin Su, Chen Xing, Boyu Mi, Qian Liu, Weijia Shi, Binyuan Hui, Fan Zhou, Yitao Liu, Tianbao Xie, Zhoujun Cheng, Siheng Zhao, Lingpeng Kong, Bailin Wang, Caiming Xiong, Tao Yu
cs.AI
Resumo
Apresentamos Lemur e Lemur-Chat, modelos de linguagem de acesso aberto otimizados tanto para capacidades de linguagem natural quanto de codificação, servindo como a base para agentes de linguagem versáteis. A evolução de modelos de chat de linguagem para agentes de linguagem funcionais exige que os modelos não apenas dominem a interação humana, o raciocínio e o planejamento, mas também garantam uma fundamentação nos ambientes relevantes. Isso requer uma combinação harmoniosa de capacidades de linguagem e codificação nos modelos. Lemur e Lemur-Chat são propostos para atender a essa necessidade, demonstrando proficiências equilibradas em ambos os domínios, ao contrário dos modelos de código aberto existentes que tendem a se especializar em um ou outro. Por meio de um pré-treinamento meticuloso utilizando um corpus intensivo em código e um ajuste fino de instruções em dados de texto e código, nossos modelos alcançam um desempenho médio de ponta em diversos benchmarks de texto e codificação entre os modelos de código aberto. Experimentos abrangentes demonstram a superioridade do Lemur sobre os modelos de código aberto existentes e sua proficiência em várias tarefas de agentes envolvendo comunicação humana, uso de ferramentas e interação em ambientes totalmente e parcialmente observáveis. A harmonização entre linguagens naturais e de programação permite que o Lemur-Chat reduza significativamente a lacuna com modelos proprietários em habilidades de agentes, fornecendo insights importantes para o desenvolvimento de agentes de código aberto avançados, hábeis em raciocinar, planejar e operar de forma contínua entre ambientes. https://github.com/OpenLemur/Lemur
English
We introduce Lemur and Lemur-Chat, openly accessible language models
optimized for both natural language and coding capabilities to serve as the
backbone of versatile language agents. The evolution from language chat models
to functional language agents demands that models not only master human
interaction, reasoning, and planning but also ensure grounding in the relevant
environments. This calls for a harmonious blend of language and coding
capabilities in the models. Lemur and Lemur-Chat are proposed to address this
necessity, demonstrating balanced proficiencies in both domains, unlike
existing open-source models that tend to specialize in either. Through
meticulous pre-training using a code-intensive corpus and instruction
fine-tuning on text and code data, our models achieve state-of-the-art averaged
performance across diverse text and coding benchmarks among open-source models.
Comprehensive experiments demonstrate Lemur's superiority over existing
open-source models and its proficiency across various agent tasks involving
human communication, tool usage, and interaction under fully- and partially-
observable environments. The harmonization between natural and programming
languages enables Lemur-Chat to significantly narrow the gap with proprietary
models on agent abilities, providing key insights into developing advanced
open-source agents adept at reasoning, planning, and operating seamlessly
across environments. https://github.com/OpenLemur/Lemur