Lumos: Agenti di Apprendimento con Dati Unificati, Progettazione Modulare e Modelli Linguistici Open-Source
Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs
November 9, 2023
Autori: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
cs.AI
Abstract
Presentiamo Lumos, un nuovo framework per l'addestramento di agenti linguistici che utilizza un formato di dati unificato e un'architettura modulare basata su modelli linguistici di grandi dimensioni (LLM) open-source. Lumos è composto da tre moduli distinti: pianificazione, contestualizzazione ed esecuzione. Il modulo di pianificazione scompone un compito in una serie di sotto-obiettivi di alto livello, indipendenti dagli strumenti, che vengono poi resi specifici dal modulo di contestualizzazione attraverso un insieme di azioni di basso livello. Queste azioni vengono successivamente eseguite dal modulo di esecuzione, utilizzando una gamma di strumenti e API disponibili sul mercato. Per addestrare efficacemente questi moduli, sono state raccolte annotazioni di alta qualità sui sotto-obiettivi e sulle azioni, che vengono messe a disposizione per il fine-tuning di LLM open-source per vari compiti come risposte a domande complesse, attività web e problemi matematici. Sfruttando questo design unificato e modulare, Lumos non solo raggiunge prestazioni comparabili o superiori agli attuali agenti all'avanguardia, ma mostra anche diversi vantaggi chiave: (1) Lumos supera gli agenti basati su GPT-4/3.5 nelle risposte a domande complesse e nelle attività web, eguagliando le prestazioni di agenti LLM significativamente più grandi nei compiti matematici; (2) Lumos supera gli agenti open-source creati con metodi di addestramento convenzionali e quelli che utilizzano il training a catena di pensieri; e (3) Lumos è in grado di generalizzare efficacemente a compiti interattivi non visti, superando agenti basati su LLM più grandi e persino superando le prestazioni di agenti specializzati.
English
We introduce Lumos, a novel framework for training language agents that
employs a unified data format and a modular architecture based on open-source
large language models (LLMs). Lumos consists of three distinct modules:
planning, grounding, and execution. The planning module breaks down a task into
a series of high-level, tool-agnostic subgoals, which are then made specific by
the grounding module through a set of low-level actions. These actions are
subsequently executed by the execution module, utilizing a range of
off-the-shelf tools and APIs. In order to train these modules effectively,
high-quality annotations of subgoals and actions were collected and are made
available for fine-tuning open-source LLMs for various tasks such as complex
question answering, web tasks, and math problems. Leveraging this unified data
and modular design, Lumos not only achieves comparable or superior performance
to current, state-of-the-art agents, but also exhibits several key advantages:
(1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and
web tasks, while equalling the performance of significantly larger LLM agents
on math tasks; (2) Lumos outperforms open-source agents created through
conventional training methods and those using chain-of-thoughts training; and
(3) Lumos is capable of effectively generalizing to unseen interactive tasks,
outperforming larger LLM-based agents and even exceeding performance of
specialized agents.