ChatPaper.aiChatPaper

RT-H: Actiehiërarchieën met Taalgebruik

RT-H: Action Hierarchies Using Language

March 4, 2024
Auteurs: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI

Samenvatting

Taal biedt een manier om complexe concepten op te delen in behapbare stukken. Recente werken in robotimitatieleren gebruiken taalgeconditioneerde beleidsregels die acties voorspellen op basis van visuele waarnemingen en de hoogwaardige taak die in taal is gespecificeerd. Deze methoden benutten de structuur van natuurlijke taal om gegevens te delen tussen semantisch vergelijkbare taken (bijvoorbeeld "pak een colablikje" en "pak een appel") in multitask-datasets. Naarmate taken echter semantisch diverser worden (bijvoorbeeld "pak een colablikje" en "schenk een kopje in"), wordt het delen van gegevens tussen taken moeilijker, waardoor het leren om hoogwaardige taken naar acties te mappen veel meer demonstratiegegevens vereist. Om taken en acties te verbinden, is ons inzicht om de robot de taal van acties aan te leren, waarbij laagwaardige bewegingen worden beschreven met meer gedetailleerde zinnen zoals "beweeg arm naar voren". Het voorspellen van deze taalbewegingen als een tussenstap tussen taken en acties dwingt het beleid om de gedeelde structuur van laagwaardige bewegingen te leren over schijnbaar verschillende taken. Bovendien kan een beleid dat is geconditioneerd op taalbewegingen eenvoudig worden gecorrigeerd tijdens de uitvoering door middel van door mensen gespecificeerde taalbewegingen. Dit maakt een nieuw paradigma mogelijk voor flexibele beleidsregels die kunnen leren van menselijke interventie in taal. Onze methode RT-H bouwt een actiehiërarchie op met behulp van taalbewegingen: het leert eerst taalbewegingen te voorspellen, en geconditioneerd op dit en de hoogwaardige taak, voorspelt het acties, waarbij in alle fasen visuele context wordt gebruikt. We laten zien dat RT-H deze taal-actiehiërarchie benut om beleidsregels te leren die robuuster en flexibeler zijn door effectief gebruik te maken van multitask-datasets. We laten zien dat deze beleidsregels niet alleen reageren op taalinterventies, maar ook kunnen leren van dergelijke interventies en methoden overtreffen die leren van teleoperatieve interventies. Onze website en video's zijn te vinden op https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.
PDF91December 15, 2024