Modelos Visão-Linguagem como Fonte de Recompensas
Vision-Language Models as a Source of Rewards
December 14, 2023
Autores: Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang
cs.AI
Resumo
A construção de agentes generalistas capazes de realizar diversos objetivos em ambientes ricos e abertos é uma das fronteiras de pesquisa no aprendizado por reforço. Um fator limitante chave para a construção de agentes generalistas com RL tem sido a necessidade de um grande número de funções de recompensa para alcançar diferentes objetivos. Investigamos a viabilidade de usar modelos visão-linguagem (VLMs) prontos para uso como fontes de recompensas para agentes de aprendizado por reforço. Mostramos como recompensas para a realização visual de uma variedade de objetivos linguísticos podem ser derivadas da família de modelos CLIP e usadas para treinar agentes de RL que podem alcançar uma variedade de objetivos linguísticos. Demonstramos essa abordagem em dois domínios visuais distintos e apresentamos uma tendência de escalonamento mostrando como VLMs maiores levam a recompensas mais precisas para a realização de objetivos visuais, o que, por sua vez, produz agentes de RL mais capazes.
English
Building generalist agents that can accomplish many goals in rich open-ended
environments is one of the research frontiers for reinforcement learning. A key
limiting factor for building generalist agents with RL has been the need for a
large number of reward functions for achieving different goals. We investigate
the feasibility of using off-the-shelf vision-language models, or VLMs, as
sources of rewards for reinforcement learning agents. We show how rewards for
visual achievement of a variety of language goals can be derived from the CLIP
family of models, and used to train RL agents that can achieve a variety of
language goals. We showcase this approach in two distinct visual domains and
present a scaling trend showing how larger VLMs lead to more accurate rewards
for visual goal achievement, which in turn produces more capable RL agents.