RL Null: Null-Schuss-Sprache zu Verhaltensweisen ohne jegliche Aufsicht.
RL Zero: Zero-Shot Language to Behaviors without any Supervision
December 7, 2024
Autoren: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI
Zusammenfassung
Belohnungen bleiben eine nicht interpretierbare Methode, um Aufgaben für das Reinforcement Learning festzulegen, da Menschen oft nicht in der Lage sind, das optimale Verhalten einer beliebigen Belohnungsfunktion vorherzusagen, was zu einer schlechten Belohnungsgestaltung und Belohnungsmanipulation führt. Sprache bietet einen ansprechenden Weg, um Absichten an Agenten zu kommunizieren und die Belohnungsgestaltung zu umgehen, aber bisherige Bemühungen in dieser Hinsicht wurden durch kostspielige und nicht skalierbare Beschriftungsbemühungen begrenzt. In dieser Arbeit schlagen wir eine Methode für eine vollständig unüberwachte Alternative vor, um sprachliche Anweisungen auf eine Null-Schuss-Art und Weise zu verankern, um Richtlinien zu erhalten. Wir präsentieren eine Lösung, die in Form von Vorstellung, Projektion und Imitation erfolgt: Der Agent stellt sich die Beobachtungssequenz vor, die der sprachlichen Beschreibung einer Aufgabe entspricht, projiziert die vorgestellte Sequenz in unsere Zielbereich und verankert sie in einer Richtlinie. Video-Sprachmodelle ermöglichen es uns, Aufgabenbeschreibungen vorzustellen, die auf dem Wissen von Aufgaben basieren, das aus Video-Text-Zuordnungen im Internetmaßstab gelernt wurde. Die Herausforderung besteht darin, diese Erzeugnisse auf eine Richtlinie zu verankern. In dieser Arbeit zeigen wir, dass wir eine Null-Schuss-Sprache-zu-Verhaltensrichtlinie erreichen können, indem wir zuerst die vorgestellten Sequenzen in echten Beobachtungen eines unüberwachten RL-Agenten verankern und eine geschlossene Lösung für das Imitationslernen verwenden, die es dem RL-Agenten ermöglicht, die verankerten Beobachtungen nachzuahmen. Unsere Methode, RLZero, ist nach unserem Kenntnisstand die erste, die Null-Schuss-Sprache-zu-Verhaltensgenerierungsfähigkeiten ohne jegliche Aufsicht bei einer Vielzahl von Aufgaben in simulierten Bereichen zeigt. Wir zeigen weiterhin, dass RLZero auch Richtlinien Null-Schuss aus Videos mit unterschiedlichen Körpern generieren kann, wie solche, die von YouTube extrahiert wurden.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement
Learning, as humans are often unable to predict the optimal behavior of any
given reward function, leading to poor reward design and reward hacking.
Language presents an appealing way to communicate intent to agents and bypass
reward design, but prior efforts to do so have been limited by costly and
unscalable labeling efforts. In this work, we propose a method for a completely
unsupervised alternative to grounding language instructions in a zero-shot
manner to obtain policies. We present a solution that takes the form of
imagine, project, and imitate: The agent imagines the observation sequence
corresponding to the language description of a task, projects the imagined
sequence to our target domain, and grounds it to a policy. Video-language
models allow us to imagine task descriptions that leverage knowledge of tasks
learned from internet-scale video-text mappings. The challenge remains to
ground these generations to a policy. In this work, we show that we can achieve
a zero-shot language-to-behavior policy by first grounding the imagined
sequences in real observations of an unsupervised RL agent and using a
closed-form solution to imitation learning that allows the RL agent to mimic
the grounded observations. Our method, RLZero, is the first to our knowledge to
show zero-shot language to behavior generation abilities without any
supervision on a variety of tasks on simulated domains. We further show that
RLZero can also generate policies zero-shot from cross-embodied videos such as
those scraped from YouTube.Summary
AI-Generated Summary