계획, 제거, 추적 -- 언어 모델은 구현 에이전트를 위한 훌륭한 교사입니다
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents
May 3, 2023
저자: Yue Wu, So Yeon Min, Yonatan Bisk, Ruslan Salakhutdinov, Amos Azaria, Yuanzhi Li, Tom Mitchell, Shrimai Prabhumoye
cs.AI
초록
사전 학습된 대형 언어 모델(LLMs)은 세계에 대한 절차적 지식을 포착합니다. 최근 연구에서는 LLM의 추상적인 계획 생성 능력을 활용하여 도전적인 제어 작업을 단순화하는 데 주력해 왔는데, 이는 행동 점수화(action scoring)나 행동 모델링(미세 조정, fine-tuning)을 통해 이루어졌습니다. 그러나 트랜스포머 아키텍처는 LLM이 직접 에이전트로 작동하기 어렵게 만드는 여러 제약을 내포하고 있습니다. 예를 들어, 제한된 입력 길이, 미세 조정의 비효율성, 사전 학습으로 인한 편향, 그리고 비텍스트 환경과의 비호환성 등이 있습니다. 저수준 훈련 가능한 행위자와의 호환성을 유지하기 위해, 우리는 LLM의 지식을 활용하여 제어 문제를 해결하는 대신 단순화하는 방식을 제안합니다. 이를 위해 계획(Plan), 제거(Eliminate), 추적(Track) 모듈로 구성된 PET 프레임워크를 제안합니다. 계획 모듈은 작업 설명을 고수준 하위 작업 목록으로 변환합니다. 제거 모듈은 현재 하위 작업과 관련 없는 객체와 수용기를 관측에서 제외합니다. 마지막으로, 추적 모듈은 에이전트가 각 하위 작업을 완료했는지 여부를 판단합니다. AlfWorld 지시 따르기 벤치마크에서 PET 프레임워크는 인간 목표 명세에 대한 일반화에서 최신 기술(SOTA) 대비 15%의 상당한 성능 향상을 이끌어냈습니다.
English
Pre-trained large language models (LLMs) capture procedural knowledge about
the world. Recent work has leveraged LLM's ability to generate abstract plans
to simplify challenging control tasks, either by action scoring, or action
modeling (fine-tuning). However, the transformer architecture inherits several
constraints that make it difficult for the LLM to directly serve as the agent:
e.g. limited input lengths, fine-tuning inefficiency, bias from pre-training,
and incompatibility with non-text environments. To maintain compatibility with
a low-level trainable actor, we propose to instead use the knowledge in LLMs to
simplify the control problem, rather than solving it. We propose the Plan,
Eliminate, and Track (PET) framework. The Plan module translates a task
description into a list of high-level sub-tasks. The Eliminate module masks out
irrelevant objects and receptacles from the observation for the current
sub-task. Finally, the Track module determines whether the agent has
accomplished each sub-task. On the AlfWorld instruction following benchmark,
the PET framework leads to a significant 15% improvement over SOTA for
generalization to human goal specifications.