I Modelli Visione-Linguaggio come Fonte di Ricompense

Abstract

La creazione di agenti generalisti in grado di raggiungere molteplici obiettivi in ambienti ricchi e aperti rappresenta una delle frontiere della ricerca nell'apprendimento per rinforzo. Un fattore limitante chiave per lo sviluppo di agenti generalisti con RL è stata la necessità di un gran numero di funzioni di ricompensa per il raggiungimento di obiettivi diversi. Investigiamo la fattibilità di utilizzare modelli visione-linguaggio preesistenti, o VLMs, come fonti di ricompensa per agenti di apprendimento per rinforzo. Dimostriamo come le ricompense per il raggiungimento visivo di una varietà di obiettivi linguistici possano essere derivate dalla famiglia di modelli CLIP e utilizzate per addestrare agenti RL in grado di raggiungere una gamma di obiettivi linguistici. Illustriamo questo approccio in due domini visivi distinti e presentiamo una tendenza di scalabilità che mostra come VLMs più grandi portino a ricompense più accurate per il raggiungimento di obiettivi visivi, producendo a loro volta agenti RL più capaci.

English

Building generalist agents that can accomplish many goals in rich open-ended environments is one of the research frontiers for reinforcement learning. A key limiting factor for building generalist agents with RL has been the need for a large number of reward functions for achieving different goals. We investigate the feasibility of using off-the-shelf vision-language models, or VLMs, as sources of rewards for reinforcement learning agents. We show how rewards for visual achievement of a variety of language goals can be derived from the CLIP family of models, and used to train RL agents that can achieve a variety of language goals. We showcase this approach in two distinct visual domains and present a scaling trend showing how larger VLMs lead to more accurate rewards for visual goal achievement, which in turn produces more capable RL agents.

I Modelli Visione-Linguaggio come Fonte di Ricompense

Vision-Language Models as a Source of Rewards

Abstract

Support