ChatPaper.aiChatPaper

Lumos: Agentes de aprendizaje con datos unificados, diseño modular y modelos de lenguaje de código abierto

Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs

November 9, 2023
Autores: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
cs.AI

Resumen

Presentamos Lumos, un marco novedoso para entrenar agentes de lenguaje que emplea un formato de datos unificado y una arquitectura modular basada en modelos de lenguaje de gran escala (LLMs) de código abierto. Lumos consta de tres módulos distintos: planificación, contextualización y ejecución. El módulo de planificación descompone una tarea en una serie de subobjetivos de alto nivel, independientes de herramientas específicas, que luego son concretados por el módulo de contextualización mediante un conjunto de acciones de bajo nivel. Estas acciones son posteriormente ejecutadas por el módulo de ejecución, utilizando una variedad de herramientas y APIs disponibles. Para entrenar estos módulos de manera efectiva, se recopilaron anotaciones de alta calidad de subobjetivos y acciones, las cuales están disponibles para ajustar LLMs de código abierto en diversas tareas, como respuesta a preguntas complejas, tareas web y problemas matemáticos. Aprovechando este diseño unificado y modular, Lumos no solo logra un rendimiento comparable o superior al de los agentes más avanzados actualmente, sino que también exhibe varias ventajas clave: (1) Lumos supera a los agentes basados en GPT-4/3.5 en tareas de respuesta a preguntas complejas y tareas web, igualando el rendimiento de agentes basados en LLMs significativamente más grandes en tareas matemáticas; (2) Lumos supera a los agentes de código abierto creados mediante métodos de entrenamiento convencionales y aquellos que utilizan entrenamiento de cadena de pensamientos; y (3) Lumos es capaz de generalizar efectivamente a tareas interactivas no vistas, superando a agentes basados en LLMs más grandes e incluso excediendo el rendimiento de agentes especializados.
English
We introduce Lumos, a novel framework for training language agents that employs a unified data format and a modular architecture based on open-source large language models (LLMs). Lumos consists of three distinct modules: planning, grounding, and execution. The planning module breaks down a task into a series of high-level, tool-agnostic subgoals, which are then made specific by the grounding module through a set of low-level actions. These actions are subsequently executed by the execution module, utilizing a range of off-the-shelf tools and APIs. In order to train these modules effectively, high-quality annotations of subgoals and actions were collected and are made available for fine-tuning open-source LLMs for various tasks such as complex question answering, web tasks, and math problems. Leveraging this unified data and modular design, Lumos not only achieves comparable or superior performance to current, state-of-the-art agents, but also exhibits several key advantages: (1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and web tasks, while equalling the performance of significantly larger LLM agents on math tasks; (2) Lumos outperforms open-source agents created through conventional training methods and those using chain-of-thoughts training; and (3) Lumos is capable of effectively generalizing to unseen interactive tasks, outperforming larger LLM-based agents and even exceeding performance of specialized agents.
PDF322December 15, 2024