RT-H : Hiérarchies d'actions utilisant le langage
RT-H: Action Hierarchies Using Language
March 4, 2024
Auteurs: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI
Résumé
Le langage offre un moyen de décomposer des concepts complexes en éléments digestes. Les travaux récents en apprentissage par imitation pour robots utilisent des politiques conditionnées par le langage qui prédisent des actions à partir d'observations visuelles et de la spécification de la tâche de haut niveau en langage naturel. Ces méthodes exploitent la structure du langage naturel pour partager des données entre des tâches sémantiquement similaires (par exemple, "ramasser une canette de coca" et "ramasser une pomme") dans des ensembles de données multi-tâches. Cependant, lorsque les tâches deviennent plus sémantiquement diversifiées (par exemple, "ramasser une canette de coca" et "verser une tasse"), le partage de données entre tâches devient plus difficile, ce qui nécessite beaucoup plus de données de démonstration pour apprendre à mapper des tâches de haut niveau à des actions. Pour établir un pont entre les tâches et les actions, notre idée est d'enseigner au robot le langage des actions, en décrivant des mouvements de bas niveau avec des phrases plus granulaires comme "avancer le bras". Prédire ces mouvements langagiers comme étape intermédiaire entre les tâches et les actions force la politique à apprendre la structure partagée des mouvements de bas niveau à travers des tâches apparemment disparates. De plus, une politique conditionnée par les mouvements langagiers peut facilement être corrigée pendant l'exécution via des mouvements langagiers spécifiés par un humain. Cela permet un nouveau paradigme pour des politiques flexibles capables d'apprendre à partir d'interventions humaines en langage. Notre méthode RT-H construit une hiérarchie d'actions en utilisant des mouvements langagiers : elle apprend d'abord à prédire les mouvements langagiers, puis, conditionnée par ceux-ci et la tâche de haut niveau, elle prédit les actions, en utilisant le contexte visuel à toutes les étapes. Nous montrons que RT-H exploite cette hiérarchie langage-action pour apprendre des politiques plus robustes et flexibles en exploitant efficacement des ensembles de données multi-tâches. Nous montrons que ces politiques permettent non seulement de répondre aux interventions langagières, mais peuvent également apprendre à partir de telles interventions et surpasser les méthodes qui apprennent à partir d'interventions téléopérées. Notre site web et nos vidéos sont disponibles à l'adresse https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible
pieces. Recent works in robot imitation learning use language-conditioned
policies that predict actions given visual observations and the high-level task
specified in language. These methods leverage the structure of natural language
to share data between semantically similar tasks (e.g., "pick coke can" and
"pick an apple") in multi-task datasets. However, as tasks become more
semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data
between tasks becomes harder, so learning to map high-level tasks to actions
requires much more demonstration data. To bridge tasks and actions, our insight
is to teach the robot the language of actions, describing low-level motions
with more fine-grained phrases like "move arm forward". Predicting these
language motions as an intermediate step between tasks and actions forces the
policy to learn the shared structure of low-level motions across seemingly
disparate tasks. Furthermore, a policy that is conditioned on language motions
can easily be corrected during execution through human-specified language
motions. This enables a new paradigm for flexible policies that can learn from
human intervention in language. Our method RT-H builds an action hierarchy
using language motions: it first learns to predict language motions, and
conditioned on this and the high-level task, it predicts actions, using visual
context at all stages. We show that RT-H leverages this language-action
hierarchy to learn policies that are more robust and flexible by effectively
tapping into multi-task datasets. We show that these policies not only allow
for responding to language interventions, but can also learn from such
interventions and outperform methods that learn from teleoperated
interventions. Our website and videos are found at
https://rt-hierarchy.github.io.