ChatPaper.aiChatPaper

Lumos: Агенты обучения с унифицированными данными, модульной архитектурой и открытыми языковыми моделями

Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs

November 9, 2023
Авторы: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
cs.AI

Аннотация

Мы представляем Lumos — новый фреймворк для обучения языковых агентов, который использует унифицированный формат данных и модульную архитектуру на основе открытых крупных языковых моделей (LLM). Lumos состоит из трех отдельных модулей: планирования, привязки и выполнения. Модуль планирования разбивает задачу на ряд высокоуровневых, независимых от инструментов подцелей, которые затем конкретизируются модулем привязки через набор низкоуровневых действий. Эти действия выполняются модулем выполнения с использованием различных готовых инструментов и API. Для эффективного обучения этих модулей были собраны высококачественные аннотации подцелей и действий, которые доступны для тонкой настройки открытых LLM для различных задач, таких как сложные вопросы, веб-задачи и математические задачи. Благодаря этому унифицированному набору данных и модульному дизайну Lumos не только демонстрирует сопоставимую или превосходящую производительность по сравнению с современными передовыми агентами, но также обладает несколькими ключевыми преимуществами: (1) Lumos превосходит агентов на основе GPT-4/3.5 в сложных вопросах и веб-задачах, при этом достигая производительности значительно более крупных LLM-агентов в математических задачах; (2) Lumos превосходит открытые агенты, созданные с использованием традиционных методов обучения и тех, что используют обучение с цепочкой рассуждений; и (3) Lumos способен эффективно обобщать на незнакомые интерактивные задачи, превосходя более крупные LLM-агенты и даже специализированные агенты.
English
We introduce Lumos, a novel framework for training language agents that employs a unified data format and a modular architecture based on open-source large language models (LLMs). Lumos consists of three distinct modules: planning, grounding, and execution. The planning module breaks down a task into a series of high-level, tool-agnostic subgoals, which are then made specific by the grounding module through a set of low-level actions. These actions are subsequently executed by the execution module, utilizing a range of off-the-shelf tools and APIs. In order to train these modules effectively, high-quality annotations of subgoals and actions were collected and are made available for fine-tuning open-source LLMs for various tasks such as complex question answering, web tasks, and math problems. Leveraging this unified data and modular design, Lumos not only achieves comparable or superior performance to current, state-of-the-art agents, but also exhibits several key advantages: (1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and web tasks, while equalling the performance of significantly larger LLM agents on math tasks; (2) Lumos outperforms open-source agents created through conventional training methods and those using chain-of-thoughts training; and (3) Lumos is capable of effectively generalizing to unseen interactive tasks, outperforming larger LLM-based agents and even exceeding performance of specialized agents.
PDF322December 15, 2024