Lumos: Agentes de Aprendizagem com Dados Unificados, Design Modular e LLMs de Código Aberto
Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs
November 9, 2023
Autores: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
cs.AI
Resumo
Apresentamos o Lumos, um novo framework para treinar agentes de linguagem que emprega um formato de dados unificado e uma arquitetura modular baseada em modelos de linguagem de grande escala (LLMs) de código aberto. O Lumos consiste em três módulos distintos: planejamento, fundamentação e execução. O módulo de planejamento divide uma tarefa em uma série de subobjetivos de alto nível, independentes de ferramentas, que são então especificados pelo módulo de fundamentação por meio de um conjunto de ações de baixo nível. Essas ações são subsequentemente executadas pelo módulo de execução, utilizando uma variedade de ferramentas e APIs prontas para uso. Para treinar esses módulos de forma eficaz, anotações de alta qualidade de subobjetivos e ações foram coletadas e estão disponíveis para ajuste fino de LLMs de código aberto para diversas tarefas, como respostas a perguntas complexas, tarefas na web e problemas matemáticos. Aproveitando esses dados unificados e o design modular, o Lumos não apenas alcança desempenho comparável ou superior aos agentes mais avançados atuais, mas também exibe várias vantagens-chave: (1) O Lumos supera agentes baseados em GPT-4/3.5 em tarefas de resposta a perguntas complexas e na web, enquanto iguala o desempenho de agentes LLMs significativamente maiores em tarefas matemáticas; (2) O Lumos supera agentes de código aberto criados por métodos convencionais de treinamento e aqueles que utilizam treinamento de cadeia de pensamentos; e (3) O Lumos é capaz de generalizar efetivamente para tarefas interativas não vistas, superando agentes baseados em LLMs maiores e até mesmo excedendo o desempenho de agentes especializados.
English
We introduce Lumos, a novel framework for training language agents that
employs a unified data format and a modular architecture based on open-source
large language models (LLMs). Lumos consists of three distinct modules:
planning, grounding, and execution. The planning module breaks down a task into
a series of high-level, tool-agnostic subgoals, which are then made specific by
the grounding module through a set of low-level actions. These actions are
subsequently executed by the execution module, utilizing a range of
off-the-shelf tools and APIs. In order to train these modules effectively,
high-quality annotations of subgoals and actions were collected and are made
available for fine-tuning open-source LLMs for various tasks such as complex
question answering, web tasks, and math problems. Leveraging this unified data
and modular design, Lumos not only achieves comparable or superior performance
to current, state-of-the-art agents, but also exhibits several key advantages:
(1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and
web tasks, while equalling the performance of significantly larger LLM agents
on math tasks; (2) Lumos outperforms open-source agents created through
conventional training methods and those using chain-of-thoughts training; and
(3) Lumos is capable of effectively generalizing to unseen interactive tasks,
outperforming larger LLM-based agents and even exceeding performance of
specialized agents.