ChatPaper.aiChatPaper

RL Zero: De lenguaje a comportamientos sin ninguna supervisión

RL Zero: Zero-Shot Language to Behaviors without any Supervision

December 7, 2024
Autores: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI

Resumen

Las recompensas siguen siendo una forma ininterpretable de especificar tareas para el Aprendizaje por Refuerzo, ya que los humanos a menudo no pueden predecir el comportamiento óptimo de cualquier función de recompensa dada, lo que lleva a un diseño deficiente de recompensas y a manipulaciones de recompensas. El lenguaje presenta una forma atractiva de comunicar la intención a los agentes y evitar el diseño de recompensas, pero los esfuerzos previos para hacerlo han sido limitados por costosos y poco escalables esfuerzos de etiquetado. En este trabajo, proponemos un método para una alternativa completamente no supervisada para fundamentar instrucciones de lenguaje de manera de cero disparos para obtener políticas. Presentamos una solución que toma la forma de imaginar, proyectar e imitar: El agente imagina la secuencia de observación correspondiente a la descripción de lenguaje de una tarea, proyecta la secuencia imaginada a nuestro dominio objetivo y la fundamenta en una política. Los modelos de video-lenguaje nos permiten imaginar descripciones de tareas que aprovechan el conocimiento de tareas aprendidas a partir de mapeos de video-texto a escala de internet. El desafío sigue siendo fundamentar estas generaciones en una política. En este trabajo, mostramos que podemos lograr una política de lenguaje a comportamiento de cero disparos al primero fundamentar las secuencias imaginadas en observaciones reales de un agente de RL no supervisado y utilizando una solución de aprendizaje por imitación en forma cerrada que permite al agente de RL imitar las observaciones fundamentadas. Nuestro método, RLZero, es el primero que conocemos en mostrar habilidades de generación de comportamiento de lenguaje a cero disparos sin ninguna supervisión en una variedad de tareas en dominios simulados. Además, demostramos que RLZero también puede generar políticas de cero disparos a partir de videos de cuerpos cruzados, como los obtenidos de YouTube.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement Learning, as humans are often unable to predict the optimal behavior of any given reward function, leading to poor reward design and reward hacking. Language presents an appealing way to communicate intent to agents and bypass reward design, but prior efforts to do so have been limited by costly and unscalable labeling efforts. In this work, we propose a method for a completely unsupervised alternative to grounding language instructions in a zero-shot manner to obtain policies. We present a solution that takes the form of imagine, project, and imitate: The agent imagines the observation sequence corresponding to the language description of a task, projects the imagined sequence to our target domain, and grounds it to a policy. Video-language models allow us to imagine task descriptions that leverage knowledge of tasks learned from internet-scale video-text mappings. The challenge remains to ground these generations to a policy. In this work, we show that we can achieve a zero-shot language-to-behavior policy by first grounding the imagined sequences in real observations of an unsupervised RL agent and using a closed-form solution to imitation learning that allows the RL agent to mimic the grounded observations. Our method, RLZero, is the first to our knowledge to show zero-shot language to behavior generation abilities without any supervision on a variety of tasks on simulated domains. We further show that RLZero can also generate policies zero-shot from cross-embodied videos such as those scraped from YouTube.

Summary

AI-Generated Summary

PDF52December 10, 2024