Модели "Видение-Язык" являются моделями вознаграждения с нулевым обучением для обучения с подкреплением
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
October 19, 2023
Авторы: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
cs.AI
Аннотация
Обучение с подкреплением (RL) требует либо ручного задания функции вознаграждения, что часто неосуществимо, либо обучения модели вознаграждения на основе большого объема человеческой обратной связи, что обычно очень затратно. Мы исследуем более эффективный с точки зрения использования данных подход: использование предобученных моделей, работающих с визуальными и текстовыми данными (VLMs), в качестве моделей вознаграждения (RMs) с нулевым обучением для задания задач через естественный язык. Мы предлагаем естественный и универсальный подход к использованию VLMs в качестве моделей вознаграждения, который мы называем VLM-RMs. Мы применяем VLM-RMs на основе CLIP для обучения человекообразного агента в среде MuJoCo выполнению сложных задач без ручного задания функции вознаграждения, таких как стояние на коленях, шпагат и поза лотоса. Для каждой из этих задач мы предоставляем только одно текстовое описание желаемой задачи с минимальной инженерией подсказок. Видео обученных агентов доступны по ссылке: https://sites.google.com/view/vlm-rm. Мы можем улучшить производительность, предоставив вторую «базовую» подсказку и исключив части пространства эмбеддингов CLIP, нерелевантные для различения цели и базового состояния. Кроме того, мы обнаруживаем сильный эффект масштабирования для VLM-RMs: более крупные VLMs, обученные с большими вычислительными ресурсами и данными, становятся лучшими моделями вознаграждения. Проблемы, с которыми мы столкнулись при использовании VLM-RMs, связаны с известными ограничениями текущих VLMs, такими как ограниченная способность к пространственному рассуждению или визуально нереалистичные среды, которые сильно отклоняются от распределения данных, на которых обучалась VLM. Мы обнаруживаем, что VLM-RMs демонстрируют замечательную устойчивость, если VLM достаточно велика. Это позволяет предположить, что будущие VLMs станут все более полезными моделями вознаграждения для широкого спектра приложений RL.
English
Reinforcement learning (RL) requires either manually specifying a reward
function, which is often infeasible, or learning a reward model from a large
amount of human feedback, which is often very expensive. We study a more
sample-efficient alternative: using pretrained vision-language models (VLMs) as
zero-shot reward models (RMs) to specify tasks via natural language. We propose
a natural and general approach to using VLMs as reward models, which we call
VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn
complex tasks without a manually specified reward function, such as kneeling,
doing the splits, and sitting in a lotus position. For each of these tasks, we
only provide a single sentence text prompt describing the desired task with
minimal prompt engineering. We provide videos of the trained agents at:
https://sites.google.com/view/vlm-rm. We can improve performance by providing a
second ``baseline'' prompt and projecting out parts of the CLIP embedding space
irrelevant to distinguish between goal and baseline. Further, we find a strong
scaling effect for VLM-RMs: larger VLMs trained with more compute and data are
better reward models. The failure modes of VLM-RMs we encountered are all
related to known capability limitations of current VLMs, such as limited
spatial reasoning ability or visually unrealistic environments that are far
off-distribution for the VLM. We find that VLM-RMs are remarkably robust as
long as the VLM is large enough. This suggests that future VLMs will become
more and more useful reward models for a wide range of RL applications.