Vision-Language Modellen zijn Zero-Shot Beloningsmodellen voor Reinforcement Learning.
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
October 19, 2023
Auteurs: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
cs.AI
Samenvatting
Reinforcement learning (RL) vereist ofwel het handmatig specificeren van een beloningsfunctie, wat vaak onhaalbaar is, of het leren van een beloningsmodel uit een grote hoeveelheid menselijke feedback, wat vaak zeer kostbaar is. Wij onderzoeken een alternatief dat efficiënter is in het gebruik van voorbeelden: het gebruik van vooraf getrainde vision-language modellen (VLMs) als zero-shot beloningsmodellen (RMs) om taken te specificeren via natuurlijke taal. Wij stellen een natuurlijke en algemene aanpak voor om VLMs als beloningsmodellen te gebruiken, wat wij VLM-RMs noemen. Wij gebruiken VLM-RMs gebaseerd op CLIP om een MuJoCo humanoïde te trainen om complexe taken te leren zonder een handmatig gespecificeerde beloningsfunctie, zoals knielen, de splits doen en in een lotushouding zitten. Voor elk van deze taken geven we slechts één zin als tekstprompt die de gewenste taak beschrijft, met minimale prompt engineering. Wij bieden video's van de getrainde agents op: https://sites.google.com/view/vlm-rm. We kunnen de prestaties verbeteren door een tweede "baseline" prompt te geven en delen van de CLIP embedding space die irrelevant zijn om het doel van de baseline te onderscheiden, te projecteren. Verder vinden we een sterk schaaleffect voor VLM-RMs: grotere VLMs die met meer rekenkracht en data zijn getraind, zijn betere beloningsmodellen. De faalmodi van VLM-RMs die we tegenkwamen, zijn allemaal gerelateerd aan bekende beperkingen van huidige VLMs, zoals beperkte ruimtelijke redeneervaardigheid of visueel onrealistische omgevingen die ver buiten de distributie van het VLM vallen. We vinden dat VLM-RMs opmerkelijk robuust zijn zolang het VLM groot genoeg is. Dit suggereert dat toekomstige VLMs steeds nuttigere beloningsmodellen zullen worden voor een breed scala aan RL-toepassingen.
English
Reinforcement learning (RL) requires either manually specifying a reward
function, which is often infeasible, or learning a reward model from a large
amount of human feedback, which is often very expensive. We study a more
sample-efficient alternative: using pretrained vision-language models (VLMs) as
zero-shot reward models (RMs) to specify tasks via natural language. We propose
a natural and general approach to using VLMs as reward models, which we call
VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn
complex tasks without a manually specified reward function, such as kneeling,
doing the splits, and sitting in a lotus position. For each of these tasks, we
only provide a single sentence text prompt describing the desired task with
minimal prompt engineering. We provide videos of the trained agents at:
https://sites.google.com/view/vlm-rm. We can improve performance by providing a
second ``baseline'' prompt and projecting out parts of the CLIP embedding space
irrelevant to distinguish between goal and baseline. Further, we find a strong
scaling effect for VLM-RMs: larger VLMs trained with more compute and data are
better reward models. The failure modes of VLM-RMs we encountered are all
related to known capability limitations of current VLMs, such as limited
spatial reasoning ability or visually unrealistic environments that are far
off-distribution for the VLM. We find that VLM-RMs are remarkably robust as
long as the VLM is large enough. This suggests that future VLMs will become
more and more useful reward models for a wide range of RL applications.