RL Zero: Nul-shot taal naar gedrag zonder enige supervisie
RL Zero: Zero-Shot Language to Behaviors without any Supervision
December 7, 2024
Auteurs: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI
Samenvatting
Beloningen blijven een oninterpreteerbare manier om taken te specificeren voor Reinforcement Learning, aangezien mensen vaak niet in staat zijn om het optimale gedrag van een gegeven beloningsfunctie te voorspellen, wat leidt tot slecht beloningsontwerp en beloningsexploitaties. Taal biedt een aantrekkelijke manier om intenties aan agenten over te brengen en beloningsontwerp te omzeilen, maar eerdere inspanningen om dit te doen zijn beperkt door kostbare en niet-schaalbare labelingsinspanningen. In dit werk stellen we een methode voor als een volledig ongesuperviseerd alternatief om taalinstructies op een zero-shot manier te gronden om beleidslijnen te verkrijgen. We presenteren een oplossing die de vorm aanneemt van verbeelden, projecteren en imiteren: De agent verbeeldt de observatievolgorde die overeenkomt met de taalbeschrijving van een taak, projecteert de verbeelde volgorde naar ons doeldomein en grondt deze in een beleid. Video-taalmodellen stellen ons in staat om taakbeschrijvingen te verbeelden die gebruikmaken van kennis van taken die zijn geleerd uit video-tekstkoppelingen op internet-schaal. De uitdaging blijft om deze generaties te gronden in een beleid. In dit werk tonen we aan dat we een zero-shot taal-naar-gedragsbeleid kunnen bereiken door eerst de verbeelde sequenties te gronden in echte observaties van een ongesuperviseerde RL-agent en een gesloten oplossing te gebruiken voor imitatieleren die de RL-agent in staat stelt om de gegrondveste observaties na te bootsen. Onze methode, RLZero, is naar ons weten de eerste die zero-shot taal-naar-gedragsgeneratievaardigheden laat zien zonder enige supervisie op een verscheidenheid aan taken op gesimuleerde domeinen. We tonen verder aan dat RLZero ook beleidslijnen zero-shot kan genereren van cross-embodied video's zoals die zijn verzameld van YouTube.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement
Learning, as humans are often unable to predict the optimal behavior of any
given reward function, leading to poor reward design and reward hacking.
Language presents an appealing way to communicate intent to agents and bypass
reward design, but prior efforts to do so have been limited by costly and
unscalable labeling efforts. In this work, we propose a method for a completely
unsupervised alternative to grounding language instructions in a zero-shot
manner to obtain policies. We present a solution that takes the form of
imagine, project, and imitate: The agent imagines the observation sequence
corresponding to the language description of a task, projects the imagined
sequence to our target domain, and grounds it to a policy. Video-language
models allow us to imagine task descriptions that leverage knowledge of tasks
learned from internet-scale video-text mappings. The challenge remains to
ground these generations to a policy. In this work, we show that we can achieve
a zero-shot language-to-behavior policy by first grounding the imagined
sequences in real observations of an unsupervised RL agent and using a
closed-form solution to imitation learning that allows the RL agent to mimic
the grounded observations. Our method, RLZero, is the first to our knowledge to
show zero-shot language to behavior generation abilities without any
supervision on a variety of tasks on simulated domains. We further show that
RLZero can also generate policies zero-shot from cross-embodied videos such as
those scraped from YouTube.