ChatPaper.aiChatPaper

Modelos Visão-Linguagem são Modelos de Recompensa Zero-Shot para Aprendizado por Reforço.

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

October 19, 2023
Autores: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
cs.AI

Resumo

O aprendizado por reforço (RL) requer a especificação manual de uma função de recompensa, o que muitas vezes é inviável, ou o aprendizado de um modelo de recompensa a partir de uma grande quantidade de feedback humano, o que geralmente é muito caro. Estudamos uma alternativa mais eficiente em termos de amostragem: o uso de modelos de visão e linguagem pré-treinados (VLMs) como modelos de recompensa de "zero-shot" (RMs) para especificar tarefas por meio de linguagem natural. Propomos uma abordagem natural e geral para usar VLMs como modelos de recompensa, que chamamos de VLM-RMs. Utilizamos VLM-RMs baseados em CLIP para treinar um humanoide MuJoCo a aprender tarefas complexas sem uma função de recompensa especificada manualmente, como ajoelhar-se, fazer o espacate e sentar-se na posição de lótus. Para cada uma dessas tarefas, fornecemos apenas uma única frase de prompt de texto descrevendo a tarefa desejada, com engenharia de prompt mínima. Fornecemos vídeos dos agentes treinados em: https://sites.google.com/view/vlm-rm. Podemos melhorar o desempenho fornecendo um segundo prompt de "linha de base" e projetando partes do espaço de incorporação do CLIP irrelevantes para distinguir entre o objetivo e a linha de base. Além disso, encontramos um forte efeito de escala para VLM-RMs: VLMs maiores treinados com mais recursos computacionais e dados são melhores modelos de recompensa. Os modos de falha dos VLM-RMs que encontramos estão todos relacionados a limitações conhecidas dos VLMs atuais, como capacidade limitada de raciocínio espacial ou ambientes visualmente irreais que estão muito fora da distribuição para o VLM. Descobrimos que os VLM-RMs são notavelmente robustos, desde que o VLM seja grande o suficiente. Isso sugere que os VLMs futuros se tornarão cada vez mais úteis como modelos de recompensa para uma ampla gama de aplicações de RL.
English
Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second ``baseline'' prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.
PDF191February 7, 2026