ChatPaper.aiChatPaper

RT-H: Иерархии действий с использованием языка

RT-H: Action Hierarchies Using Language

March 4, 2024
Авторы: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI

Аннотация

Язык предоставляет способ декомпозиции сложных концепций на усваиваемые части. Недавние работы в области обучения имитации роботов используют языком обусловленные стратегии, которые предсказывают действия на основе визуальных наблюдений и высокоуровневой задачи, указанной в языке. Эти методы используют структуру естественного языка для обмена данными между семантически схожими задачами (например, "взять банку колы" и "взять яблоко") в многозадачных наборах данных. Однако, по мере увеличения семантического разнообразия задач (например, "взять банку колы" и "налить в чашку"), обмен данными между задачами становится сложнее, поэтому для обучения отображению высокоуровневых задач на действия требуется гораздо больше демонстрационных данных. Для связи задач и действий наша идея заключается в обучении робота языку действий, описывая низкоуровневые движения более детализированными фразами, такими как "двигать рукой вперед". Предсказание этих языковых движений в качестве промежуточного шага между задачами и действиями заставляет стратегию учиться общей структуре низкоуровневых движений по всей видимости различных задач. Более того, стратегия, обусловленная языковыми движениями, может легко корректироваться во время выполнения через явно указанные человеком языковые движения. Это открывает новую парадигму гибких стратегий, которые могут учиться на основе вмешательства человека в языке. Наш метод RT-H создает иерархию действий, используя языковые движения: сначала он учится предсказывать языковые движения, а при условии этого и высокоуровневой задачи предсказывает действия, используя визуальный контекст на всех этапах. Мы показываем, что RT-H использует эту языково-действенную иерархию для обучения стратегий, которые более устойчивы и гибки, эффективно используя многозадачные наборы данных. Мы демонстрируем, что эти стратегии не только позволяют реагировать на языковые вмешательства, но и могут учиться на таких вмешательствах и превосходить методы, которые учатся на телекомандных вмешательствах. Наш веб-сайт и видео доступны по адресу https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.
PDF91December 15, 2024