Los Modelos de Visión-Lenguaje son Modelos de Recompensa Zero-Shot para el Aprendizaje por Refuerzo.
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
October 19, 2023
Autores: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
cs.AI
Resumen
El aprendizaje por refuerzo (RL, por sus siglas en inglés) requiere especificar manualmente una función de recompensa, lo cual a menudo no es factible, o aprender un modelo de recompensa a partir de una gran cantidad de retroalimentación humana, lo cual suele ser muy costoso. Estudiamos una alternativa más eficiente en términos de muestras: utilizar modelos preentrenados de visión y lenguaje (VLMs, por sus siglas en inglés) como modelos de recompensa de cero disparos (RMs, por sus siglas en inglés) para especificar tareas mediante lenguaje natural. Proponemos un enfoque natural y general para usar VLMs como modelos de recompensa, al que llamamos VLM-RMs. Utilizamos VLM-RMs basados en CLIP para entrenar un humanoide en MuJoCo para aprender tareas complejas sin una función de recompensa especificada manualmente, como arrodillarse, hacer el splits y sentarse en posición de loto. Para cada una de estas tareas, solo proporcionamos una única frase de texto que describe la tarea deseada con una ingeniería de prompts mínima. Proporcionamos videos de los agentes entrenados en: https://sites.google.com/view/vlm-rm. Podemos mejorar el rendimiento proporcionando un segundo prompt de "línea base" y proyectando partes del espacio de incrustación de CLIP irrelevantes para distinguir entre el objetivo y la línea base. Además, encontramos un fuerte efecto de escalabilidad para los VLM-RMs: los VLMs más grandes entrenados con más recursos computacionales y datos son mejores modelos de recompensa. Los modos de fallo de los VLM-RMs que encontramos están relacionados con limitaciones conocidas de los VLMs actuales, como la capacidad limitada de razonamiento espacial o entornos visualmente poco realistas que están muy fuera de distribución para el VLM. Encontramos que los VLM-RMs son notablemente robustos siempre que el VLM sea lo suficientemente grande. Esto sugiere que los VLMs futuros serán cada vez más útiles como modelos de recompensa para una amplia gama de aplicaciones de RL.
English
Reinforcement learning (RL) requires either manually specifying a reward
function, which is often infeasible, or learning a reward model from a large
amount of human feedback, which is often very expensive. We study a more
sample-efficient alternative: using pretrained vision-language models (VLMs) as
zero-shot reward models (RMs) to specify tasks via natural language. We propose
a natural and general approach to using VLMs as reward models, which we call
VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn
complex tasks without a manually specified reward function, such as kneeling,
doing the splits, and sitting in a lotus position. For each of these tasks, we
only provide a single sentence text prompt describing the desired task with
minimal prompt engineering. We provide videos of the trained agents at:
https://sites.google.com/view/vlm-rm. We can improve performance by providing a
second ``baseline'' prompt and projecting out parts of the CLIP embedding space
irrelevant to distinguish between goal and baseline. Further, we find a strong
scaling effect for VLM-RMs: larger VLMs trained with more compute and data are
better reward models. The failure modes of VLM-RMs we encountered are all
related to known capability limitations of current VLMs, such as limited
spatial reasoning ability or visually unrealistic environments that are far
off-distribution for the VLM. We find that VLM-RMs are remarkably robust as
long as the VLM is large enough. This suggests that future VLMs will become
more and more useful reward models for a wide range of RL applications.