Модели "зрение-язык" как источник вознаграждений

Аннотация

Создание универсальных агентов, способных достигать множества целей в сложных и открытых средах, является одной из ключевых исследовательских задач в области обучения с подкреплением. Основным ограничивающим фактором при разработке таких агентов с использованием RL была необходимость в большом количестве функций вознаграждения для достижения различных целей. Мы исследуем возможность использования готовых моделей, объединяющих зрение и язык (vision-language models, VLMs), в качестве источников вознаграждения для агентов обучения с подкреплением. Мы демонстрируем, как вознаграждения за визуальное достижение разнообразных языковых целей могут быть получены из семейства моделей CLIP и использованы для обучения RL-агентов, способных достигать различных языковых целей. Мы представляем этот подход в двух различных визуальных областях и показываем тенденцию масштабирования, согласно которой более крупные VLMs обеспечивают более точные вознаграждения за достижение визуальных целей, что, в свою очередь, приводит к созданию более эффективных RL-агентов.

English

Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents.

Модели "зрение-язык" как источник вознаграждений

Vision-Language Models as a Source of Rewards

Аннотация

Support