RT-H: Aktionshierarchien mittels Sprache
RT-H: Action Hierarchies Using Language
March 4, 2024
Autoren: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI
Zusammenfassung
Sprache bietet eine Möglichkeit, komplexe Konzepte in verdauliche Teile zu zerlegen. Aktuelle Arbeiten im Bereich des Imitationslernens für Roboter verwenden sprachgesteuerte Policies, die Aktionen basierend auf visuellen Beobachtungen und der in Sprache spezifizierten übergeordneten Aufgabe vorhersagen. Diese Methoden nutzen die Struktur der natürlichen Sprache, um Daten zwischen semantisch ähnlichen Aufgaben (z. B. „nimm Cola-Dose“ und „nimm einen Apfel“) in Multi-Task-Datensätzen zu teilen. Wenn die Aufgaben jedoch semantisch vielfältiger werden (z. B. „nimm Cola-Dose“ und „gieße Tasse ein“), wird das Teilen von Daten zwischen Aufgaben schwieriger, sodass das Erlernen der Abbildung von übergeordneten Aufgaben auf Aktionen deutlich mehr Demonstrationsdaten erfordert. Um Aufgaben und Aktionen zu verbinden, besteht unsere Erkenntnis darin, dem Roboter die Sprache der Aktionen beizubringen, indem niedrigstufige Bewegungen mit feingranularen Phrasen wie „bewege Arm nach vorne“ beschrieben werden. Die Vorhersage dieser Sprachbewegungen als Zwischenschritt zwischen Aufgaben und Aktionen zwingt die Policy dazu, die gemeinsame Struktur niedrigstufiger Bewegungen über scheinbar unterschiedliche Aufgaben hinweg zu erlernen. Darüber hinaus kann eine Policy, die auf Sprachbewegungen konditioniert ist, während der Ausführung leicht durch vom Menschen spezifizierte Sprachbewegungen korrigiert werden. Dies ermöglicht ein neues Paradigma für flexible Policies, die aus menschlichen Eingriffen in Sprache lernen können. Unsere Methode RT-H baut eine Aktionshierarchie mithilfe von Sprachbewegungen auf: Sie lernt zunächst, Sprachbewegungen vorherzusagen, und konditioniert darauf sowie auf die übergeordnete Aufgabe, um Aktionen unter Verwendung des visuellen Kontexts in allen Phasen vorherzusagen. Wir zeigen, dass RT-H diese Sprach-Aktions-Hierarchie nutzt, um robustere und flexiblere Policies zu erlernen, indem effektiv auf Multi-Task-Datensätze zurückgegriffen wird. Diese Policies ermöglichen nicht nur das Reagieren auf sprachliche Eingriffe, sondern können auch aus solchen Eingriffen lernen und Methoden übertreffen, die aus teleoperierten Eingriffen lernen. Unsere Website und Videos finden Sie unter https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible
pieces. Recent works in robot imitation learning use language-conditioned
policies that predict actions given visual observations and the high-level task
specified in language. These methods leverage the structure of natural language
to share data between semantically similar tasks (e.g., "pick coke can" and
"pick an apple") in multi-task datasets. However, as tasks become more
semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data
between tasks becomes harder, so learning to map high-level tasks to actions
requires much more demonstration data. To bridge tasks and actions, our insight
is to teach the robot the language of actions, describing low-level motions
with more fine-grained phrases like "move arm forward". Predicting these
language motions as an intermediate step between tasks and actions forces the
policy to learn the shared structure of low-level motions across seemingly
disparate tasks. Furthermore, a policy that is conditioned on language motions
can easily be corrected during execution through human-specified language
motions. This enables a new paradigm for flexible policies that can learn from
human intervention in language. Our method RT-H builds an action hierarchy
using language motions: it first learns to predict language motions, and
conditioned on this and the high-level task, it predicts actions, using visual
context at all stages. We show that RT-H leverages this language-action
hierarchy to learn policies that are more robust and flexible by effectively
tapping into multi-task datasets. We show that these policies not only allow
for responding to language interventions, but can also learn from such
interventions and outperform methods that learn from teleoperated
interventions. Our website and videos are found at
https://rt-hierarchy.github.io.