ChatPaper.aiChatPaper

RL Zero: Linguagem de Zero-Shot para Comportamentos sem Qualquer Supervisão

RL Zero: Zero-Shot Language to Behaviors without any Supervision

December 7, 2024
Autores: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI

Resumo

Recompensas continuam sendo uma forma ininterpretável de especificar tarefas para Aprendizado por Reforço, uma vez que os humanos frequentemente são incapazes de prever o comportamento ótimo de qualquer função de recompensa específica, resultando em um design de recompensa deficiente e em manipulação de recompensa. A linguagem apresenta uma maneira atraente de comunicar a intenção aos agentes e contornar o design de recompensa, mas esforços anteriores nesse sentido foram limitados por esforços de rotulagem custosos e não escaláveis. Neste trabalho, propomos um método para uma alternativa completamente não supervisionada para fundamentar instruções em linguagem de forma inédita para obter políticas. Apresentamos uma solução que se baseia em imaginar, projetar e imitar: O agente imagina a sequência de observação correspondente à descrição em linguagem de uma tarefa, projeta a sequência imaginada para o nosso domínio alvo e a fundamenta em uma política. Modelos de vídeo-linguagem nos permitem imaginar descrições de tarefas que aproveitam o conhecimento de tarefas aprendidas a partir de mapeamentos vídeo-texto em escala da internet. O desafio persiste em fundamentar essas gerações em uma política. Neste trabalho, demonstramos que podemos alcançar uma política de linguagem-comportamento sem necessidade de supervisão em uma variedade de tarefas em domínios simulados, ao primeiro fundamentar as sequências imaginadas em observações reais de um agente de RL não supervisionado e utilizando uma solução de aprendizado por imitação em forma fechada que permite ao agente de RL imitar as observações fundamentadas. Nosso método, RLZero, é, até onde sabemos, o primeiro a demonstrar habilidades de geração de comportamento a partir de linguagem sem supervisão em uma variedade de tarefas em domínios simulados. Além disso, demonstramos que o RLZero também pode gerar políticas sem supervisão a partir de vídeos com diferentes corpos, como aqueles extraídos do YouTube.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement Learning, as humans are often unable to predict the optimal behavior of any given reward function, leading to poor reward design and reward hacking. Language presents an appealing way to communicate intent to agents and bypass reward design, but prior efforts to do so have been limited by costly and unscalable labeling efforts. In this work, we propose a method for a completely unsupervised alternative to grounding language instructions in a zero-shot manner to obtain policies. We present a solution that takes the form of imagine, project, and imitate: The agent imagines the observation sequence corresponding to the language description of a task, projects the imagined sequence to our target domain, and grounds it to a policy. Video-language models allow us to imagine task descriptions that leverage knowledge of tasks learned from internet-scale video-text mappings. The challenge remains to ground these generations to a policy. In this work, we show that we can achieve a zero-shot language-to-behavior policy by first grounding the imagined sequences in real observations of an unsupervised RL agent and using a closed-form solution to imitation learning that allows the RL agent to mimic the grounded observations. Our method, RLZero, is the first to our knowledge to show zero-shot language to behavior generation abilities without any supervision on a variety of tasks on simulated domains. We further show that RLZero can also generate policies zero-shot from cross-embodied videos such as those scraped from YouTube.

Summary

AI-Generated Summary

PDF52December 10, 2024