비전-언어 모델을 보상의 원천으로 활용하기
Vision-Language Models as a Source of Rewards
December 14, 2023
저자: Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang
cs.AI
초록
풍부하고 개방된 환경에서 다양한 목표를 달성할 수 있는 일반화된 에이전트를 구축하는 것은 강화 학습의 연구 최전선 중 하나입니다. 강화 학습을 통해 일반화된 에이전트를 구축하는 데 있어 주요 제한 요인은 다양한 목표를 달성하기 위해 다수의 보상 함수가 필요하다는 점이었습니다. 본 연구는 기성 비전-언어 모델(VLMs)을 강화 학습 에이전트의 보상 원천으로 사용하는 것의 가능성을 탐구합니다. 우리는 다양한 언어 목표의 시각적 달성을 위한 보상을 CLIP 모델 계열에서 도출하고, 이를 사용하여 다양한 언어 목표를 달성할 수 있는 강화 학습 에이전트를 훈련시키는 방법을 보여줍니다. 이 접근 방식을 두 개의 독특한 시각적 도메인에서 시연하며, 더 큰 VLM이 시각적 목표 달성을 위한 더 정확한 보상을 제공하고, 이에 따라 더 능력 있는 강화 학습 에이전트를 생성한다는 확장 추세를 제시합니다.
English
Building generalist agents that can accomplish many goals in rich open-ended
environments is one of the research frontiers for reinforcement learning. A key
limiting factor for building generalist agents with RL has been the need for a
large number of reward functions for achieving different goals. We investigate
the feasibility of using off-the-shelf vision-language models, or VLMs, as
sources of rewards for reinforcement learning agents. We show how rewards for
visual achievement of a variety of language goals can be derived from the CLIP
family of models, and used to train RL agents that can achieve a variety of
language goals. We showcase this approach in two distinct visual domains and
present a scaling trend showing how larger VLMs lead to more accurate rewards
for visual goal achievement, which in turn produces more capable RL agents.