RT-H: Иерархии действий с использованием языка
RT-H: Action Hierarchies Using Language
March 4, 2024
Авторы: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI
Аннотация
Язык предоставляет способ декомпозиции сложных концепций на усваиваемые части. Недавние работы в области обучения имитации роботов используют языком обусловленные стратегии, которые предсказывают действия на основе визуальных наблюдений и высокоуровневой задачи, указанной в языке. Эти методы используют структуру естественного языка для обмена данными между семантически схожими задачами (например, "взять банку колы" и "взять яблоко") в многозадачных наборах данных. Однако, по мере увеличения семантического разнообразия задач (например, "взять банку колы" и "налить в чашку"), обмен данными между задачами становится сложнее, поэтому для обучения отображению высокоуровневых задач на действия требуется гораздо больше демонстрационных данных. Для связи задач и действий наша идея заключается в обучении робота языку действий, описывая низкоуровневые движения более детализированными фразами, такими как "двигать рукой вперед". Предсказание этих языковых движений в качестве промежуточного шага между задачами и действиями заставляет стратегию учиться общей структуре низкоуровневых движений по всей видимости различных задач. Более того, стратегия, обусловленная языковыми движениями, может легко корректироваться во время выполнения через явно указанные человеком языковые движения. Это открывает новую парадигму гибких стратегий, которые могут учиться на основе вмешательства человека в языке. Наш метод RT-H создает иерархию действий, используя языковые движения: сначала он учится предсказывать языковые движения, а при условии этого и высокоуровневой задачи предсказывает действия, используя визуальный контекст на всех этапах. Мы показываем, что RT-H использует эту языково-действенную иерархию для обучения стратегий, которые более устойчивы и гибки, эффективно используя многозадачные наборы данных. Мы демонстрируем, что эти стратегии не только позволяют реагировать на языковые вмешательства, но и могут учиться на таких вмешательствах и превосходить методы, которые учатся на телекомандных вмешательствах. Наш веб-сайт и видео доступны по адресу https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible
pieces. Recent works in robot imitation learning use language-conditioned
policies that predict actions given visual observations and the high-level task
specified in language. These methods leverage the structure of natural language
to share data between semantically similar tasks (e.g., "pick coke can" and
"pick an apple") in multi-task datasets. However, as tasks become more
semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data
between tasks becomes harder, so learning to map high-level tasks to actions
requires much more demonstration data. To bridge tasks and actions, our insight
is to teach the robot the language of actions, describing low-level motions
with more fine-grained phrases like "move arm forward". Predicting these
language motions as an intermediate step between tasks and actions forces the
policy to learn the shared structure of low-level motions across seemingly
disparate tasks. Furthermore, a policy that is conditioned on language motions
can easily be corrected during execution through human-specified language
motions. This enables a new paradigm for flexible policies that can learn from
human intervention in language. Our method RT-H builds an action hierarchy
using language motions: it first learns to predict language motions, and
conditioned on this and the high-level task, it predicts actions, using visual
context at all stages. We show that RT-H leverages this language-action
hierarchy to learn policies that are more robust and flexible by effectively
tapping into multi-task datasets. We show that these policies not only allow
for responding to language interventions, but can also learn from such
interventions and outperform methods that learn from teleoperated
interventions. Our website and videos are found at
https://rt-hierarchy.github.io.