I modelli visione-linguaggio sono modelli di ricompensa zero-shot per l'apprendimento per rinforzo.

Abstract

L'apprendimento per rinforzo (RL) richiede la specifica manuale di una funzione di ricompensa, spesso impraticabile, oppure l'apprendimento di un modello di ricompensa da una grande quantità di feedback umano, che è spesso molto costoso. Esploriamo un'alternativa più efficiente in termini di campioni: utilizzare modelli visione-linguaggio (VLMs) pre-addestrati come modelli di ricompensa zero-shot (RMs) per specificare i compiti tramite linguaggio naturale. Proponiamo un approccio naturale e generale per utilizzare i VLMs come modelli di ricompensa, che chiamiamo VLM-RMs. Utilizziamo VLM-RMs basati su CLIP per addestrare un umanoide MuJoCo a imparare compiti complessi senza una funzione di ricompensa specificata manualmente, come inginocchiarsi, fare lo split e sedersi in posizione del loto. Per ciascuno di questi compiti, forniamo solo una singola frase di prompt testuale che descrive il compito desiderato con un minimo di ingegneria del prompt. Forniamo video degli agenti addestrati al seguente link: https://sites.google.com/view/vlm-rm. Possiamo migliorare le prestazioni fornendo un secondo prompt di "baseline" e proiettando fuori le parti dello spazio di embedding CLIP irrilevanti per distinguere tra obiettivo e baseline. Inoltre, troviamo un forte effetto di scala per i VLM-RMs: VLMs più grandi addestrati con più risorse computazionali e dati sono migliori modelli di ricompensa. I casi di fallimento dei VLM-RMs che abbiamo riscontrato sono tutti legati a limitazioni note delle capacità degli attuali VLMs, come la capacità limitata di ragionamento spaziale o ambienti visivamente irrealistici che sono lontani dalla distribuzione del VLM. Troviamo che i VLM-RMs sono notevolmente robusti purché il VLM sia sufficientemente grande. Ciò suggerisce che i futuri VLMs diventeranno modelli di ricompensa sempre più utili per una vasta gamma di applicazioni RL.

English

Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second ``baseline'' prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.

I modelli visione-linguaggio sono modelli di ricompensa zero-shot per l'apprendimento per rinforzo.

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Abstract

Support