ChatPaper.aiChatPaper

RT-H: Aktionshierarchien mittels Sprache

RT-H: Action Hierarchies Using Language

March 4, 2024
Autoren: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI

Zusammenfassung

Sprache bietet eine Möglichkeit, komplexe Konzepte in verdauliche Teile zu zerlegen. Aktuelle Arbeiten im Bereich des Imitationslernens für Roboter verwenden sprachgesteuerte Policies, die Aktionen basierend auf visuellen Beobachtungen und der in Sprache spezifizierten übergeordneten Aufgabe vorhersagen. Diese Methoden nutzen die Struktur der natürlichen Sprache, um Daten zwischen semantisch ähnlichen Aufgaben (z. B. „nimm Cola-Dose“ und „nimm einen Apfel“) in Multi-Task-Datensätzen zu teilen. Wenn die Aufgaben jedoch semantisch vielfältiger werden (z. B. „nimm Cola-Dose“ und „gieße Tasse ein“), wird das Teilen von Daten zwischen Aufgaben schwieriger, sodass das Erlernen der Abbildung von übergeordneten Aufgaben auf Aktionen deutlich mehr Demonstrationsdaten erfordert. Um Aufgaben und Aktionen zu verbinden, besteht unsere Erkenntnis darin, dem Roboter die Sprache der Aktionen beizubringen, indem niedrigstufige Bewegungen mit feingranularen Phrasen wie „bewege Arm nach vorne“ beschrieben werden. Die Vorhersage dieser Sprachbewegungen als Zwischenschritt zwischen Aufgaben und Aktionen zwingt die Policy dazu, die gemeinsame Struktur niedrigstufiger Bewegungen über scheinbar unterschiedliche Aufgaben hinweg zu erlernen. Darüber hinaus kann eine Policy, die auf Sprachbewegungen konditioniert ist, während der Ausführung leicht durch vom Menschen spezifizierte Sprachbewegungen korrigiert werden. Dies ermöglicht ein neues Paradigma für flexible Policies, die aus menschlichen Eingriffen in Sprache lernen können. Unsere Methode RT-H baut eine Aktionshierarchie mithilfe von Sprachbewegungen auf: Sie lernt zunächst, Sprachbewegungen vorherzusagen, und konditioniert darauf sowie auf die übergeordnete Aufgabe, um Aktionen unter Verwendung des visuellen Kontexts in allen Phasen vorherzusagen. Wir zeigen, dass RT-H diese Sprach-Aktions-Hierarchie nutzt, um robustere und flexiblere Policies zu erlernen, indem effektiv auf Multi-Task-Datensätze zurückgegriffen wird. Diese Policies ermöglichen nicht nur das Reagieren auf sprachliche Eingriffe, sondern können auch aus solchen Eingriffen lernen und Methoden übertreffen, die aus teleoperierten Eingriffen lernen. Unsere Website und Videos finden Sie unter https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.
PDF91December 15, 2024