RT-H: Jerarquías de Acción mediante Lenguaje

Resumen

El lenguaje proporciona una forma de descomponer conceptos complejos en partes digeribles. Trabajos recientes en aprendizaje por imitación de robots utilizan políticas condicionadas por lenguaje que predicen acciones dadas observaciones visuales y la tarea de alto nivel especificada en lenguaje. Estos métodos aprovechan la estructura del lenguaje natural para compartir datos entre tareas semánticamente similares (por ejemplo, "recoger lata de refresco" y "recoger una manzana") en conjuntos de datos multitarea. Sin embargo, a medida que las tareas se vuelven más diversas semánticamente (por ejemplo, "recoger lata de refresco" y "verter taza"), compartir datos entre tareas se vuelve más difícil, por lo que aprender a mapear tareas de alto nivel a acciones requiere muchos más datos de demostración. Para conectar tareas y acciones, nuestra idea es enseñar al robot el lenguaje de las acciones, describiendo movimientos de bajo nivel con frases más detalladas como "mover brazo hacia adelante". Predecir estos movimientos de lenguaje como un paso intermedio entre tareas y acciones obliga a la política a aprender la estructura compartida de los movimientos de bajo nivel en tareas aparentemente dispares. Además, una política condicionada por movimientos de lenguaje puede corregirse fácilmente durante la ejecución mediante movimientos de lenguaje especificados por humanos. Esto permite un nuevo paradigma para políticas flexibles que pueden aprender de la intervención humana en lenguaje. Nuestro método RT-H construye una jerarquía de acciones utilizando movimientos de lenguaje: primero aprende a predecir movimientos de lenguaje y, condicionado en esto y la tarea de alto nivel, predice acciones, utilizando contexto visual en todas las etapas. Demostramos que RT-H aprovecha esta jerarquía lenguaje-acción para aprender políticas más robustas y flexibles al aprovechar efectivamente conjuntos de datos multitarea. Mostramos que estas políticas no solo permiten responder a intervenciones de lenguaje, sino que también pueden aprender de dichas intervenciones y superar a métodos que aprenden de intervenciones teleoperadas. Nuestro sitio web y videos se encuentran en https://rt-hierarchy.github.io.

English

Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.

RT-H: Jerarquías de Acción mediante Lenguaje

RT-H: Action Hierarchies Using Language

Resumen

Support