ChatPaper.aiChatPaper

Modelos de Visión-Lenguaje como Fuente de Recompensas

Vision-Language Models as a Source of Rewards

December 14, 2023
Autores: Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang
cs.AI

Resumen

Desarrollar agentes generalistas capaces de alcanzar múltiples objetivos en entornos ricos y abiertos representa una de las fronteras de investigación en el aprendizaje por refuerzo. Un factor limitante clave para construir agentes generalistas con aprendizaje por refuerzo ha sido la necesidad de un gran número de funciones de recompensa para lograr diferentes objetivos. Investigamos la viabilidad de utilizar modelos visión-lenguaje (VLMs) disponibles comercialmente como fuentes de recompensas para agentes de aprendizaje por refuerzo. Demostramos cómo se pueden derivar recompensas para el logro visual de diversos objetivos lingüísticos a partir de la familia de modelos CLIP, y cómo estas pueden utilizarse para entrenar agentes de aprendizaje por refuerzo que alcancen una variedad de objetivos lingüísticos. Mostramos este enfoque en dos dominios visuales distintos y presentamos una tendencia de escalabilidad que indica cómo los VLMs más grandes generan recompensas más precisas para el logro de objetivos visuales, lo que a su vez produce agentes de aprendizaje por refuerzo más competentes.
English
Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents.
PDF148December 15, 2024