RT-H: Hierarquias de Ações Usando Linguagem
RT-H: Action Hierarchies Using Language
March 4, 2024
Autores: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI
Resumo
A linguagem oferece uma maneira de decompor conceitos complexos em partes digeríveis. Trabalhos recentes em aprendizado por imitação de robôs utilizam políticas condicionadas por linguagem que preveem ações dadas observações visuais e a especificação da tarefa de alto nível em linguagem. Esses métodos aproveitam a estrutura da linguagem natural para compartilhar dados entre tarefas semanticamente semelhantes (por exemplo, "pegar lata de refrigerante" e "pegar uma maçã") em conjuntos de dados multitarefa. No entanto, à medida que as tarefas se tornam mais semanticamente diversas (por exemplo, "pegar lata de refrigerante" e "despejar copo"), compartilhar dados entre tarefas se torna mais difícil, de modo que aprender a mapear tarefas de alto nível para ações requer muito mais dados de demonstração. Para conectar tarefas e ações, nossa ideia é ensinar ao robô a linguagem das ações, descrevendo movimentos de baixo nível com frases mais detalhadas, como "mover braço para frente". Prever esses movimentos de linguagem como um passo intermediário entre tarefas e ações força a política a aprender a estrutura compartilhada de movimentos de baixo nível em tarefas aparentemente distintas. Além disso, uma política condicionada por movimentos de linguagem pode ser facilmente corrigida durante a execução por meio de movimentos de linguagem especificados por humanos. Isso possibilita um novo paradigma para políticas flexíveis que podem aprender com a intervenção humana em linguagem. Nosso método RT-H constrói uma hierarquia de ações usando movimentos de linguagem: ele primeiro aprende a prever movimentos de linguagem e, condicionado a isso e à tarefa de alto nível, prevê ações, utilizando contexto visual em todas as etapas. Mostramos que o RT-H aproveita essa hierarquia linguagem-ação para aprender políticas mais robustas e flexíveis, explorando efetivamente conjuntos de dados multitarefa. Demonstramos que essas políticas não apenas permitem responder a intervenções de linguagem, mas também podem aprender com tais intervenções e superar métodos que aprendem com intervenções teleoperadas. Nosso site e vídeos podem ser encontrados em https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible
pieces. Recent works in robot imitation learning use language-conditioned
policies that predict actions given visual observations and the high-level task
specified in language. These methods leverage the structure of natural language
to share data between semantically similar tasks (e.g., "pick coke can" and
"pick an apple") in multi-task datasets. However, as tasks become more
semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data
between tasks becomes harder, so learning to map high-level tasks to actions
requires much more demonstration data. To bridge tasks and actions, our insight
is to teach the robot the language of actions, describing low-level motions
with more fine-grained phrases like "move arm forward". Predicting these
language motions as an intermediate step between tasks and actions forces the
policy to learn the shared structure of low-level motions across seemingly
disparate tasks. Furthermore, a policy that is conditioned on language motions
can easily be corrected during execution through human-specified language
motions. This enables a new paradigm for flexible policies that can learn from
human intervention in language. Our method RT-H builds an action hierarchy
using language motions: it first learns to predict language motions, and
conditioned on this and the high-level task, it predicts actions, using visual
context at all stages. We show that RT-H leverages this language-action
hierarchy to learn policies that are more robust and flexible by effectively
tapping into multi-task datasets. We show that these policies not only allow
for responding to language interventions, but can also learn from such
interventions and outperform methods that learn from teleoperated
interventions. Our website and videos are found at
https://rt-hierarchy.github.io.