RL Zero: Нулевое обучение с нуля: перевод из языка в действия без какого-либо надзора.
RL Zero: Zero-Shot Language to Behaviors without any Supervision
December 7, 2024
Авторы: Harshit Sikchi, Siddhant Agarwal, Pranaya Jajoo, Samyak Parajuli, Caleb Chuck, Max Rudolph, Peter Stone, Amy Zhang, Scott Niekum
cs.AI
Аннотация
Награды остаются непонятным способом задания задач для обучения с подкреплением, поскольку люди часто не могут предсказать оптимальное поведение для любой данной функции вознаграждения, что приводит к плохому проектированию вознаграждения и его взлому. Язык представляет собой привлекательный способ передачи намерений агентам и обхода проектирования вознаграждения, но предыдущие попытки сделать это были ограничены дорогостоящими и не масштабируемыми усилиями по разметке. В данной работе мы предлагаем метод полностью ненадзорной альтернативы привязки инструкций на языке к политикам в режиме нулевой настройки для получения политик. Мы представляем решение в виде процессов воображения, проекции и имитации: агент воображает последовательность наблюдений, соответствующую языковому описанию задачи, проецирует воображаемую последовательность на нашу целевую область и привязывает ее к политике. Модели видео-языка позволяют нам воображать описания задач, используя знания о задачах, полученные из масштабных интернет-видео-текстовых соответствий. Остается вызовом привязать эти генерации к политике. В данной работе мы показываем, что можем достичь политики от языка к поведению в режиме нулевой настройки, сначала привязав воображаемые последовательности к реальным наблюдениям агента обучения без учителя и используя решение в замкнутой форме для обучения имитации, что позволяет агенту обучения с подкреплением имитировать привязанные наблюдения. Наш метод, RLZero, по нашим данным, первый, показывающий способности к генерации поведения от языка к поведению в режиме нулевой настройки без какого-либо надзора на различных задачах на симулированных областях. Мы также показываем, что RLZero также может генерировать политики в режиме нулевой настройки из видеороликов с перекрестными воплощениями, таких как те, которые были извлечены из YouTube.
English
Rewards remain an uninterpretable way to specify tasks for Reinforcement
Learning, as humans are often unable to predict the optimal behavior of any
given reward function, leading to poor reward design and reward hacking.
Language presents an appealing way to communicate intent to agents and bypass
reward design, but prior efforts to do so have been limited by costly and
unscalable labeling efforts. In this work, we propose a method for a completely
unsupervised alternative to grounding language instructions in a zero-shot
manner to obtain policies. We present a solution that takes the form of
imagine, project, and imitate: The agent imagines the observation sequence
corresponding to the language description of a task, projects the imagined
sequence to our target domain, and grounds it to a policy. Video-language
models allow us to imagine task descriptions that leverage knowledge of tasks
learned from internet-scale video-text mappings. The challenge remains to
ground these generations to a policy. In this work, we show that we can achieve
a zero-shot language-to-behavior policy by first grounding the imagined
sequences in real observations of an unsupervised RL agent and using a
closed-form solution to imitation learning that allows the RL agent to mimic
the grounded observations. Our method, RLZero, is the first to our knowledge to
show zero-shot language to behavior generation abilities without any
supervision on a variety of tasks on simulated domains. We further show that
RLZero can also generate policies zero-shot from cross-embodied videos such as
those scraped from YouTube.Summary
AI-Generated Summary