ChatPaper.aiChatPaper

Vision-Language-Modelle sind Zero-Shot-Belohnungsmodelle für Reinforcement Learning.

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

October 19, 2023
Autoren: Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
cs.AI

Zusammenfassung

Reinforcement Learning (RL) erfordert entweder die manuelle Spezifikation einer Belohnungsfunktion, was oft nicht praktikabel ist, oder das Lernen eines Belohnungsmodells aus einer großen Menge menschlicher Rückmeldungen, was oft sehr kostspielig ist. Wir untersuchen eine effizientere Alternative: die Verwendung vortrainierter Vision-Language-Modelle (VLMs) als Zero-Shot-Belohnungsmodelle (RMs), um Aufgaben über natürliche Sprache zu spezifizieren. Wir schlagen einen natürlichen und allgemeinen Ansatz vor, VLMs als Belohnungsmodelle zu verwenden, den wir VLM-RMs nennen. Wir verwenden VLM-RMs basierend auf CLIP, um einen MuJoCo-Humanoiden zu trainieren, komplexe Aufgaben ohne manuell spezifizierte Belohnungsfunktion zu erlernen, wie zum Beispiel Knien, den Spagat machen und im Lotussitz sitzen. Für jede dieser Aufgaben geben wir nur einen einzigen Satz als Textprompt an, der die gewünschte Aufgabe mit minimalem Prompt-Engineering beschreibt. Wir stellen Videos der trainierten Agenten unter folgender Adresse bereit: https://sites.google.com/view/vlm-rm. Wir können die Leistung verbessern, indem wir einen zweiten „Baseline“-Prompt bereitstellen und Teile des CLIP-Einbettungsraums, die irrelevant sind, um zwischen Ziel und Baseline zu unterscheiden, herausprojizieren. Darüber hinaus beobachten wir einen starken Skalierungseffekt bei VLM-RMs: größere VLMs, die mit mehr Rechenleistung und Daten trainiert wurden, sind bessere Belohnungsmodelle. Die von uns festgestellten Fehlermodi von VLM-RMs hängen alle mit bekannten Fähigkeitsbeschränkungen aktueller VLMs zusammen, wie begrenzte räumliche Denkfähigkeit oder visuell unrealistische Umgebungen, die weit außerhalb der Verteilung des VLM liegen. Wir stellen fest, dass VLM-RMs bemerkenswert robust sind, solange das VLM groß genug ist. Dies deutet darauf hin, dass zukünftige VLMs immer nützlichere Belohnungsmodelle für eine breite Palette von RL-Anwendungen werden.
English
Reinforcement learning (RL) requires either manually specifying a reward function, which is often infeasible, or learning a reward model from a large amount of human feedback, which is often very expensive. We study a more sample-efficient alternative: using pretrained vision-language models (VLMs) as zero-shot reward models (RMs) to specify tasks via natural language. We propose a natural and general approach to using VLMs as reward models, which we call VLM-RMs. We use VLM-RMs based on CLIP to train a MuJoCo humanoid to learn complex tasks without a manually specified reward function, such as kneeling, doing the splits, and sitting in a lotus position. For each of these tasks, we only provide a single sentence text prompt describing the desired task with minimal prompt engineering. We provide videos of the trained agents at: https://sites.google.com/view/vlm-rm. We can improve performance by providing a second ``baseline'' prompt and projecting out parts of the CLIP embedding space irrelevant to distinguish between goal and baseline. Further, we find a strong scaling effect for VLM-RMs: larger VLMs trained with more compute and data are better reward models. The failure modes of VLM-RMs we encountered are all related to known capability limitations of current VLMs, such as limited spatial reasoning ability or visually unrealistic environments that are far off-distribution for the VLM. We find that VLM-RMs are remarkably robust as long as the VLM is large enough. This suggests that future VLMs will become more and more useful reward models for a wide range of RL applications.
PDF201December 15, 2024