Vision-Language Modellen als bron van beloningen
Vision-Language Models as a Source of Rewards
December 14, 2023
Auteurs: Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang
cs.AI
Samenvatting
Het ontwikkelen van generalistische agents die veel doelen kunnen bereiken in rijke, open-ended omgevingen is een van de onderzoeksfronten voor reinforcement learning. Een belangrijke beperkende factor bij het bouwen van generalistische agents met RL is de behoefte aan een groot aantal beloningsfuncties voor het bereiken van verschillende doelen. Wij onderzoeken de haalbaarheid van het gebruik van kant-en-klare vision-language modellen, of VLMs, als bronnen van beloningen voor reinforcement learning agents. We laten zien hoe beloningen voor het visueel bereiken van een verscheidenheid aan taaldoelen kunnen worden afgeleid uit de CLIP-familie van modellen, en gebruikt kunnen worden om RL agents te trainen die een verscheidenheid aan taaldoelen kunnen bereiken. We demonstreren deze aanpak in twee verschillende visuele domeinen en presenteren een schaalbaarheidstrend die laat zien hoe grotere VLMs leiden tot nauwkeurigere beloningen voor het visueel bereiken van doelen, wat op zijn beurt weer capabelere RL agents oplevert.
English
Building generalist agents that can accomplish many goals in rich open-ended
environments is one of the research frontiers for reinforcement learning. A key
limiting factor for building generalist agents with RL has been the need for a
large number of reward functions for achieving different goals. We investigate
the feasibility of using off-the-shelf vision-language models, or VLMs, as
sources of rewards for reinforcement learning agents. We show how rewards for
visual achievement of a variety of language goals can be derived from the CLIP
family of models, and used to train RL agents that can achieve a variety of
language goals. We showcase this approach in two distinct visual domains and
present a scaling trend showing how larger VLMs lead to more accurate rewards
for visual goal achievement, which in turn produces more capable RL agents.