ChatPaper.aiChatPaper

언어 피드백 모델을 활용한 정책 개선

Policy Improvement using Language Feedback Models

February 12, 2024
저자: Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
cs.AI

초록

우리는 지시 따르기에서의 모방 학습을 위해 바람직한 행동—지시에 명시된 과제를 달성하는 데 도움이 되는 행동—을 식별하는 언어 피드백 모델(Language Feedback Models, LFMs)을 소개한다. LFMs를 학습시키기 위해, 우리는 시각적 궤적을 언어 설명으로 전환한 후 대형 언어 모델(Large Language Models, LLMs)로부터 피드백을 얻는다. 첫째, LFMs를 사용하여 모방할 바람직한 행동을 식별함으로써, 세 가지 구별된 언어 기반 환경(Touchdown, ScienceWorld, ALFWorld)에서 강력한 행동 복제 베이스라인 대비 과제 완료율을 향상시켰다. 둘째, LLM 출력 토큰 수를 통제했을 때, LFMs는 LLMs를 전문가로 사용하여 직접 행동을 예측하는 방법을 능가했다. 셋째, LFMs는 보이지 않는 환경으로 일반화되어, 한 차례의 적응을 통해 과제 완료율을 3.5-12.0% 향상시켰다. 마지막으로, LFM은 성능 손실 없이 인간이 해석 가능한 피드백을 제공하도록 수정될 수 있으며, 이를 통해 모방 학습을 위한 바람직한 행동에 대한 인간의 검증이 가능하다.
English
We introduce Language Feedback Models (LFMs) that identify desirable behaviour - actions that help achieve tasks specified in the instruction - for imitation learning in instruction following. To train LFMs, we obtain feedback from Large Language Models (LLMs) on visual trajectories verbalized to language descriptions. First, by using LFMs to identify desirable behaviour to imitate, we improve in task-completion rate over strong behavioural cloning baselines on three distinct language grounding environments (Touchdown, ScienceWorld, and ALFWorld). Second, LFMs outperform using LLMs as experts to directly predict actions, when controlling for the number of LLM output tokens. Third, LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation. Finally, LFM can be modified to provide human-interpretable feedback without performance loss, allowing human verification of desirable behaviour for imitation learning.
PDF91December 15, 2024