Lumos: 統一データ、モジュール設計、オープンソースLLMを活用した学習エージェント
Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs
November 9, 2023
著者: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
cs.AI
要旨
我々は、統一されたデータ形式とオープンソースの大規模言語モデル(LLM)に基づくモジュール型アーキテクチャを採用した、言語エージェントのトレーニングのための新しいフレームワーク「Lumos」を紹介する。Lumosは、計画、接地、実行という3つの異なるモジュールで構成されている。計画モジュールは、タスクを一連の高レベルでツールに依存しないサブゴールに分解し、その後、接地モジュールがこれらのサブゴールを低レベルのアクションのセットを通じて具体化する。これらのアクションは、実行モジュールによって、さまざまな既存のツールやAPIを利用して実行される。これらのモジュールを効果的にトレーニングするために、サブゴールとアクションの高品質なアノテーションが収集され、複雑な質問応答、ウェブタスク、数学問題などのさまざまなタスクに対してオープンソースのLLMをファインチューニングするために利用可能となっている。この統一されたデータとモジュール設計を活用することで、Lumosは現在の最先端エージェントと同等またはそれ以上の性能を達成するだけでなく、いくつかの重要な利点を示している:(1)Lumosは、複雑な質問応答とウェブタスクにおいてGPT-4/3.5ベースのエージェントを上回り、数学タスクでは大幅に大きなLLMエージェントと同等の性能を発揮する;(2)Lumosは、従来のトレーニング方法や連鎖思考(chain-of-thoughts)トレーニングを使用して作成されたオープンソースエージェントを上回る;(3)Lumosは、未見のインタラクティブタスクに効果的に一般化でき、より大きなLLMベースのエージェントを上回り、専門エージェントの性能さえも超える。
English
We introduce Lumos, a novel framework for training language agents that
employs a unified data format and a modular architecture based on open-source
large language models (LLMs). Lumos consists of three distinct modules:
planning, grounding, and execution. The planning module breaks down a task into
a series of high-level, tool-agnostic subgoals, which are then made specific by
the grounding module through a set of low-level actions. These actions are
subsequently executed by the execution module, utilizing a range of
off-the-shelf tools and APIs. In order to train these modules effectively,
high-quality annotations of subgoals and actions were collected and are made
available for fine-tuning open-source LLMs for various tasks such as complex
question answering, web tasks, and math problems. Leveraging this unified data
and modular design, Lumos not only achieves comparable or superior performance
to current, state-of-the-art agents, but also exhibits several key advantages:
(1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and
web tasks, while equalling the performance of significantly larger LLM agents
on math tasks; (2) Lumos outperforms open-source agents created through
conventional training methods and those using chain-of-thoughts training; and
(3) Lumos is capable of effectively generalizing to unseen interactive tasks,
outperforming larger LLM-based agents and even exceeding performance of
specialized agents.