RT-H: Jerarquías de Acción mediante Lenguaje
RT-H: Action Hierarchies Using Language
March 4, 2024
Autores: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI
Resumen
El lenguaje proporciona una forma de descomponer conceptos complejos en partes digeribles. Trabajos recientes en aprendizaje por imitación de robots utilizan políticas condicionadas por lenguaje que predicen acciones dadas observaciones visuales y la tarea de alto nivel especificada en lenguaje. Estos métodos aprovechan la estructura del lenguaje natural para compartir datos entre tareas semánticamente similares (por ejemplo, "recoger lata de refresco" y "recoger una manzana") en conjuntos de datos multitarea. Sin embargo, a medida que las tareas se vuelven más diversas semánticamente (por ejemplo, "recoger lata de refresco" y "verter taza"), compartir datos entre tareas se vuelve más difícil, por lo que aprender a mapear tareas de alto nivel a acciones requiere muchos más datos de demostración. Para conectar tareas y acciones, nuestra idea es enseñar al robot el lenguaje de las acciones, describiendo movimientos de bajo nivel con frases más detalladas como "mover brazo hacia adelante". Predecir estos movimientos de lenguaje como un paso intermedio entre tareas y acciones obliga a la política a aprender la estructura compartida de los movimientos de bajo nivel en tareas aparentemente dispares. Además, una política condicionada por movimientos de lenguaje puede corregirse fácilmente durante la ejecución mediante movimientos de lenguaje especificados por humanos. Esto permite un nuevo paradigma para políticas flexibles que pueden aprender de la intervención humana en lenguaje. Nuestro método RT-H construye una jerarquía de acciones utilizando movimientos de lenguaje: primero aprende a predecir movimientos de lenguaje y, condicionado en esto y la tarea de alto nivel, predice acciones, utilizando contexto visual en todas las etapas. Demostramos que RT-H aprovecha esta jerarquía lenguaje-acción para aprender políticas más robustas y flexibles al aprovechar efectivamente conjuntos de datos multitarea. Mostramos que estas políticas no solo permiten responder a intervenciones de lenguaje, sino que también pueden aprender de dichas intervenciones y superar a métodos que aprenden de intervenciones teleoperadas. Nuestro sitio web y videos se encuentran en https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible
pieces. Recent works in robot imitation learning use language-conditioned
policies that predict actions given visual observations and the high-level task
specified in language. These methods leverage the structure of natural language
to share data between semantically similar tasks (e.g., "pick coke can" and
"pick an apple") in multi-task datasets. However, as tasks become more
semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data
between tasks becomes harder, so learning to map high-level tasks to actions
requires much more demonstration data. To bridge tasks and actions, our insight
is to teach the robot the language of actions, describing low-level motions
with more fine-grained phrases like "move arm forward". Predicting these
language motions as an intermediate step between tasks and actions forces the
policy to learn the shared structure of low-level motions across seemingly
disparate tasks. Furthermore, a policy that is conditioned on language motions
can easily be corrected during execution through human-specified language
motions. This enables a new paradigm for flexible policies that can learn from
human intervention in language. Our method RT-H builds an action hierarchy
using language motions: it first learns to predict language motions, and
conditioned on this and the high-level task, it predicts actions, using visual
context at all stages. We show that RT-H leverages this language-action
hierarchy to learn policies that are more robust and flexible by effectively
tapping into multi-task datasets. We show that these policies not only allow
for responding to language interventions, but can also learn from such
interventions and outperform methods that learn from teleoperated
interventions. Our website and videos are found at
https://rt-hierarchy.github.io.