ChatPaper.aiChatPaper

RT-H : Hiérarchies d'actions utilisant le langage

RT-H: Action Hierarchies Using Language

March 4, 2024
Auteurs: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI

Résumé

Le langage offre un moyen de décomposer des concepts complexes en éléments digestes. Les travaux récents en apprentissage par imitation pour robots utilisent des politiques conditionnées par le langage qui prédisent des actions à partir d'observations visuelles et de la spécification de la tâche de haut niveau en langage naturel. Ces méthodes exploitent la structure du langage naturel pour partager des données entre des tâches sémantiquement similaires (par exemple, "ramasser une canette de coca" et "ramasser une pomme") dans des ensembles de données multi-tâches. Cependant, lorsque les tâches deviennent plus sémantiquement diversifiées (par exemple, "ramasser une canette de coca" et "verser une tasse"), le partage de données entre tâches devient plus difficile, ce qui nécessite beaucoup plus de données de démonstration pour apprendre à mapper des tâches de haut niveau à des actions. Pour établir un pont entre les tâches et les actions, notre idée est d'enseigner au robot le langage des actions, en décrivant des mouvements de bas niveau avec des phrases plus granulaires comme "avancer le bras". Prédire ces mouvements langagiers comme étape intermédiaire entre les tâches et les actions force la politique à apprendre la structure partagée des mouvements de bas niveau à travers des tâches apparemment disparates. De plus, une politique conditionnée par les mouvements langagiers peut facilement être corrigée pendant l'exécution via des mouvements langagiers spécifiés par un humain. Cela permet un nouveau paradigme pour des politiques flexibles capables d'apprendre à partir d'interventions humaines en langage. Notre méthode RT-H construit une hiérarchie d'actions en utilisant des mouvements langagiers : elle apprend d'abord à prédire les mouvements langagiers, puis, conditionnée par ceux-ci et la tâche de haut niveau, elle prédit les actions, en utilisant le contexte visuel à toutes les étapes. Nous montrons que RT-H exploite cette hiérarchie langage-action pour apprendre des politiques plus robustes et flexibles en exploitant efficacement des ensembles de données multi-tâches. Nous montrons que ces politiques permettent non seulement de répondre aux interventions langagières, mais peuvent également apprendre à partir de telles interventions et surpasser les méthodes qui apprennent à partir d'interventions téléopérées. Notre site web et nos vidéos sont disponibles à l'adresse https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.
PDF91December 15, 2024