RL Zéro : Passage de la langue aux comportements sans aucune supervision
RL Zero: Zero-Shot Language to Behaviors without any Supervision
December 7, 2024
Auteurs: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI
Résumé
Les récompenses demeurent un moyen non interprétable de spécifier des tâches pour l'Apprentissage par Renforcement, car les humains sont souvent incapables de prédire le comportement optimal de toute fonction de récompense donnée, ce qui conduit à une mauvaise conception de la récompense et à des manipulations de récompense. Le langage présente un moyen attrayant de communiquer l'intention aux agents et de contourner la conception de récompenses, mais les efforts antérieurs en ce sens ont été limités par des efforts d'étiquetage coûteux et non évolutifs. Dans ce travail, nous proposons une méthode pour une alternative entièrement non supervisée à l'ancrage des instructions de langage de manière à obtenir des politiques de manière zéro-shot. Nous présentons une solution qui prend la forme d'imaginer, projeter et imiter : l'agent imagine la séquence d'observations correspondant à la description en langage d'une tâche, projette la séquence imaginée vers notre domaine cible, et l'ancrage à une politique. Les modèles vidéo-langage nous permettent d'imaginer des descriptions de tâches qui exploitent la connaissance des tâches apprises à partir de mappages vidéo-texte à l'échelle d'Internet. Le défi demeure de relier ces générations à une politique. Dans ce travail, nous montrons que nous pouvons atteindre une politique de langage-comportement zéro-shot en ancrant d'abord les séquences imaginées dans des observations réelles d'un agent RL non supervisé et en utilisant une solution en forme fermée pour l'apprentissage par imitation qui permet à l'agent RL de reproduire les observations ancrées. Notre méthode, RLZero, est à notre connaissance la première à démontrer des capacités de génération de langage-comportement zéro-shot sans aucune supervision sur une variété de tâches sur des domaines simulés. Nous montrons en outre que RLZero peut également générer des politiques zéro-shot à partir de vidéos à corps croisés telles que celles extraites de YouTube.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement
Learning, as humans are often unable to predict the optimal behavior of any
given reward function, leading to poor reward design and reward hacking.
Language presents an appealing way to communicate intent to agents and bypass
reward design, but prior efforts to do so have been limited by costly and
unscalable labeling efforts. In this work, we propose a method for a completely
unsupervised alternative to grounding language instructions in a zero-shot
manner to obtain policies. We present a solution that takes the form of
imagine, project, and imitate: The agent imagines the observation sequence
corresponding to the language description of a task, projects the imagined
sequence to our target domain, and grounds it to a policy. Video-language
models allow us to imagine task descriptions that leverage knowledge of tasks
learned from internet-scale video-text mappings. The challenge remains to
ground these generations to a policy. In this work, we show that we can achieve
a zero-shot language-to-behavior policy by first grounding the imagined
sequences in real observations of an unsupervised RL agent and using a
closed-form solution to imitation learning that allows the RL agent to mimic
the grounded observations. Our method, RLZero, is the first to our knowledge to
show zero-shot language to behavior generation abilities without any
supervision on a variety of tasks on simulated domains. We further show that
RLZero can also generate policies zero-shot from cross-embodied videos such as
those scraped from YouTube.Summary
AI-Generated Summary