ChatPaper.aiChatPaper

Lumos: Lernagenten mit vereinheitlichten Daten, modularer Architektur und Open-Source-LLMs

Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs

November 9, 2023
Autoren: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
cs.AI

Zusammenfassung

Wir stellen Lumos vor, ein neuartiges Framework für das Training von Sprachagenten, das ein einheitliches Datenformat und eine modulare Architektur auf Basis von Open-Source-Großsprachmodellen (LLMs) verwendet. Lumos besteht aus drei verschiedenen Modulen: Planung, Verankerung und Ausführung. Das Planungsmodul zerlegt eine Aufgabe in eine Reihe von hochrangigen, werkzeugunabhängigen Teilzielen, die dann durch das Verankerungsmodul in eine Menge von niedrigrangigen Aktionen konkretisiert werden. Diese Aktionen werden anschließend vom Ausführungsmodul unter Verwendung einer Reihe von Standardwerkzeugen und APIs ausgeführt. Um diese Module effektiv zu trainieren, wurden hochwertige Annotationen von Teilzielen und Aktionen gesammelt und stehen für das Feinabstimmen von Open-Source-LLMs für verschiedene Aufgaben wie komplexe Fragebeantwortung, Webaufgaben und mathematische Probleme zur Verfügung. Durch die Nutzung dieser einheitlichen Daten und des modularen Designs erreicht Lumos nicht nur vergleichbare oder überlegene Leistungen im Vergleich zu aktuellen, state-of-the-art Agenten, sondern zeigt auch mehrere Schlüsselvorteile: (1) Lumos übertrifft GPT-4/3.5-basierte Agenten bei komplexer Fragebeantwortung und Webaufgaben, während es die Leistung von deutlich größeren LLM-Agenten bei mathematischen Aufgaben erreicht; (2) Lumos übertrifft Open-Source-Agenten, die mit konventionellen Trainingsmethoden erstellt wurden, sowie solche, die Chain-of-Thoughts-Training verwenden; und (3) Lumos ist in der Lage, effektiv auf unbekannte interaktive Aufgaben zu generalisieren, wobei es größere LLM-basierte Agenten übertrifft und sogar die Leistung von spezialisierten Agenten übersteigt.
English
We introduce Lumos, a novel framework for training language agents that employs a unified data format and a modular architecture based on open-source large language models (LLMs). Lumos consists of three distinct modules: planning, grounding, and execution. The planning module breaks down a task into a series of high-level, tool-agnostic subgoals, which are then made specific by the grounding module through a set of low-level actions. These actions are subsequently executed by the execution module, utilizing a range of off-the-shelf tools and APIs. In order to train these modules effectively, high-quality annotations of subgoals and actions were collected and are made available for fine-tuning open-source LLMs for various tasks such as complex question answering, web tasks, and math problems. Leveraging this unified data and modular design, Lumos not only achieves comparable or superior performance to current, state-of-the-art agents, but also exhibits several key advantages: (1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and web tasks, while equalling the performance of significantly larger LLM agents on math tasks; (2) Lumos outperforms open-source agents created through conventional training methods and those using chain-of-thoughts training; and (3) Lumos is capable of effectively generalizing to unseen interactive tasks, outperforming larger LLM-based agents and even exceeding performance of specialized agents.
PDF322December 15, 2024