ChatPaper.aiChatPaper

Les modèles vision-langage sont des modèles de récompense zero-shot pour l'apprentissage par renforcement.

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

October 19, 2023
Auteurs: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
cs.AI

Résumé

L'apprentissage par renforcement (RL) nécessite soit de spécifier manuellement une fonction de récompense, ce qui est souvent irréalisable, soit d'apprendre un modèle de récompense à partir d'une grande quantité de retours humains, ce qui est souvent très coûteux. Nous étudions une alternative plus efficace en termes d'échantillons : l'utilisation de modèles vision-langage (VLMs) pré-entraînés comme modèles de récompense (RMs) en mode zéro-shot pour spécifier des tâches via le langage naturel. Nous proposons une approche naturelle et générale pour utiliser les VLMs comme modèles de récompense, que nous appelons VLM-RMs. Nous utilisons des VLM-RMs basés sur CLIP pour entraîner un humanoïde MuJoCo à apprendre des tâches complexes sans fonction de récompense spécifiée manuellement, comme s'agenouiller, faire le grand écart ou s'asseoir en position du lotus. Pour chacune de ces tâches, nous fournissons uniquement une phrase décrivant la tâche souhaitée avec un minimum d'ingénierie de prompt. Nous fournissons des vidéos des agents entraînés à l'adresse suivante : https://sites.google.com/view/vlm-rm. Nous pouvons améliorer les performances en fournissant un deuxième prompt de « référence » et en projetant les parties de l'espace d'embedding CLIP non pertinentes pour distinguer l'objectif de la référence. De plus, nous observons un fort effet d'échelle pour les VLM-RMs : les VLMs plus grands, entraînés avec plus de calcul et de données, sont de meilleurs modèles de récompense. Les modes d'échec des VLM-RMs que nous avons rencontrés sont tous liés aux limitations connues des VLMs actuels, comme une capacité de raisonnement spatial limitée ou des environnements visuellement irréalistes qui sont loin de la distribution du VLM. Nous constatons que les VLM-RMs sont remarquablement robustes tant que le VLM est suffisamment grand. Cela suggère que les futurs VLMs deviendront de plus en plus utiles comme modèles de récompense pour une large gamme d'applications RL.
English
Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second ``baseline'' prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.
PDF201December 15, 2024