Les modèles vision-langage comme source de récompenses
Vision-Language Models as a Source of Rewards
December 14, 2023
Auteurs: Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang
cs.AI
Résumé
La construction d'agents généralistes capables d'accomplir de nombreux objectifs dans des environnements riches et ouverts constitue l'une des frontières de recherche en apprentissage par renforcement. Un facteur limitant clé pour développer de tels agents avec l'apprentissage par renforcement a été la nécessité d'un grand nombre de fonctions de récompense pour atteindre différents objectifs. Nous étudions la faisabilité d'utiliser des modèles vision-langage prêts à l'emploi, ou VLMs, comme sources de récompenses pour les agents d'apprentissage par renforcement. Nous montrons comment des récompenses pour la réalisation visuelle d'une variété d'objectifs linguistiques peuvent être dérivées de la famille de modèles CLIP, et utilisées pour entraîner des agents d'apprentissage par renforcement capables d'atteindre divers objectifs linguistiques. Nous illustrons cette approche dans deux domaines visuels distincts et présentons une tendance de mise à l'échelle montrant comment des VLMs plus grands produisent des récompenses plus précises pour la réalisation d'objectifs visuels, ce qui à son tour génère des agents d'apprentissage par renforcement plus performants.
English
Building generalist agents that can accomplish many goals in rich open-ended
environments is one of the research frontiers for reinforcement learning. A key
limiting factor for building generalist agents with RL has been the need for a
large number of reward functions for achieving different goals. We investigate
the feasibility of using off-the-shelf vision-language models, or VLMs, as
sources of rewards for reinforcement learning agents. We show how rewards for
visual achievement of a variety of language goals can be derived from the CLIP
family of models, and used to train RL agents that can achieve a variety of
language goals. We showcase this approach in two distinct visual domains and
present a scaling trend showing how larger VLMs lead to more accurate rewards
for visual goal achievement, which in turn produces more capable RL agents.