ChatPaper.aiChatPaper

Модели "зрение-язык" как источник вознаграждений

Vision-Language Models as a Source of Rewards

December 14, 2023
Авторы: Kate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang
cs.AI

Аннотация

Создание универсальных агентов, способных достигать множества целей в сложных и открытых средах, является одной из ключевых исследовательских задач в области обучения с подкреплением. Основным ограничивающим фактором при разработке таких агентов с использованием RL была необходимость в большом количестве функций вознаграждения для достижения различных целей. Мы исследуем возможность использования готовых моделей, объединяющих зрение и язык (vision-language models, VLMs), в качестве источников вознаграждения для агентов обучения с подкреплением. Мы демонстрируем, как вознаграждения за визуальное достижение разнообразных языковых целей могут быть получены из семейства моделей CLIP и использованы для обучения RL-агентов, способных достигать различных языковых целей. Мы представляем этот подход в двух различных визуальных областях и показываем тенденцию масштабирования, согласно которой более крупные VLMs обеспечивают более точные вознаграждения за достижение визуальных целей, что, в свою очередь, приводит к созданию более эффективных RL-агентов.
English
Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents.
PDF148December 15, 2024