Lumos: 통합 데이터, 모듈식 설계, 오픈소스 LLM을 활용한 학습 에이전트
Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs
November 9, 2023
저자: Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
cs.AI
초록
우리는 통합 데이터 형식과 오픈소스 대형 언어 모델(LLM) 기반의 모듈식 아키텍처를 활용하여 언어 에이전트를 훈련하기 위한 새로운 프레임워크인 Lumos를 소개합니다. Lumos는 계획(planning), 구체화(grounding), 실행(execution)이라는 세 가지 독립적인 모듈로 구성됩니다. 계획 모듈은 작업을 도구에 구애받지 않는 고수준의 하위 목표로 분해하며, 구체화 모듈은 이를 저수준의 구체적인 행동으로 변환합니다. 이러한 행동은 실행 모듈에 의해 다양한 오프더셸프 도구와 API를 활용하여 실행됩니다. 이러한 모듈을 효과적으로 훈련하기 위해, 복잡한 질문 응답, 웹 작업, 수학 문제와 같은 다양한 작업을 위해 하위 목표와 행동에 대한 고품질 주석 데이터를 수집하고 이를 오픈소스 LLM의 미세 조정에 활용할 수 있도록 공개했습니다. 이 통합 데이터와 모듈식 설계를 바탕으로 Lumos는 현재 최첨단 에이전트와 비교하여 동등하거나 더 우수한 성능을 달성할 뿐만 아니라 다음과 같은 주요 장점을 보여줍니다: (1) Lumos는 복잡한 질문 응답과 웹 작업에서 GPT-4/3.5 기반 에이전트를 능가하며, 수학 작업에서는 훨씬 더 큰 LLM 에이전트와 동등한 성능을 보입니다; (2) Lumos는 기존의 전통적인 훈련 방법이나 사고 연쇄(chain-of-thoughts) 훈련을 통해 생성된 오픈소스 에이전트를 능가합니다; (3) Lumos는 보지 않은 인터랙티브 작업에 효과적으로 일반화할 수 있으며, 더 큰 LLM 기반 에이전트를 능가하고 심지어 특수 목적 에이전트의 성능을 초과합니다.
English
We introduce Lumos, a novel framework for training language agents that
employs a unified data format and a modular architecture based on open-source
large language models (LLMs). Lumos consists of three distinct modules:
planning, grounding, and execution. The planning module breaks down a task into
a series of high-level, tool-agnostic subgoals, which are then made specific by
the grounding module through a set of low-level actions. These actions are
subsequently executed by the execution module, utilizing a range of
off-the-shelf tools and APIs. In order to train these modules effectively,
high-quality annotations of subgoals and actions were collected and are made
available for fine-tuning open-source LLMs for various tasks such as complex
question answering, web tasks, and math problems. Leveraging this unified data
and modular design, Lumos not only achieves comparable or superior performance
to current, state-of-the-art agents, but also exhibits several key advantages:
(1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and
web tasks, while equalling the performance of significantly larger LLM agents
on math tasks; (2) Lumos outperforms open-source agents created through
conventional training methods and those using chain-of-thoughts training; and
(3) Lumos is capable of effectively generalizing to unseen interactive tasks,
outperforming larger LLM-based agents and even exceeding performance of
specialized agents.