ChatPaper.aiChatPaper

RT-H: Gerarchie di Azioni Utilizzando il Linguaggio

RT-H: Action Hierarchies Using Language

March 4, 2024
Autori: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong, Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
cs.AI

Abstract

Il linguaggio offre un modo per scomporre concetti complessi in parti digeribili. Recenti lavori nell'apprendimento per imitazione dei robot utilizzano politiche condizionate dal linguaggio che prevedono azioni date osservazioni visive e il compito di alto livello specificato nel linguaggio. Questi metodi sfruttano la struttura del linguaggio naturale per condividere dati tra compiti semanticamente simili (ad esempio, "prendi la lattina di coca" e "prendi una mela") in dataset multi-compito. Tuttavia, man mano che i compiti diventano semanticamente più diversificati (ad esempio, "prendi la lattina di coca" e "versa la tazza"), diventa più difficile condividere dati tra compiti, quindi imparare a mappare compiti di alto livello ad azioni richiede molti più dati dimostrativi. Per colmare il divario tra compiti e azioni, la nostra intuizione è insegnare al robot il linguaggio delle azioni, descrivendo movimenti di basso livello con frasi più dettagliate come "muovi il braccio in avanti". Prevedere questi movimenti linguistici come passaggio intermedio tra compiti e azioni costringe la politica ad apprendere la struttura condivisa dei movimenti di basso livello tra compiti apparentemente disparati. Inoltre, una politica condizionata sui movimenti linguistici può essere facilmente corretta durante l'esecuzione attraverso movimenti linguistici specificati dall'uomo. Ciò consente un nuovo paradigma per politiche flessibili che possono apprendere dall'intervento umano nel linguaggio. Il nostro metodo RT-H costruisce una gerarchia di azioni utilizzando movimenti linguistici: prima impara a prevedere i movimenti linguistici e, condizionato su questi e sul compito di alto livello, prevede le azioni, utilizzando il contesto visivo in tutte le fasi. Mostriamo che RT-H sfrutta questa gerarchia linguaggio-azione per apprendere politiche più robuste e flessibili sfruttando efficacemente dataset multi-compito. Dimostriamo che queste politiche non solo consentono di rispondere agli interventi linguistici, ma possono anche apprendere da tali interventi e superare i metodi che apprendono da interventi teleoperati. Il nostro sito web e i video si trovano su https://rt-hierarchy.github.io.
English
Language provides a way to break down complex concepts into digestible pieces. Recent works in robot imitation learning use language-conditioned policies that predict actions given visual observations and the high-level task specified in language. These methods leverage the structure of natural language to share data between semantically similar tasks (e.g., "pick coke can" and "pick an apple") in multi-task datasets. However, as tasks become more semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data between tasks becomes harder, so learning to map high-level tasks to actions requires much more demonstration data. To bridge tasks and actions, our insight is to teach the robot the language of actions, describing low-level motions with more fine-grained phrases like "move arm forward". Predicting these language motions as an intermediate step between tasks and actions forces the policy to learn the shared structure of low-level motions across seemingly disparate tasks. Furthermore, a policy that is conditioned on language motions can easily be corrected during execution through human-specified language motions. This enables a new paradigm for flexible policies that can learn from human intervention in language. Our method RT-H builds an action hierarchy using language motions: it first learns to predict language motions, and conditioned on this and the high-level task, it predicts actions, using visual context at all stages. We show that RT-H leverages this language-action hierarchy to learn policies that are more robust and flexible by effectively tapping into multi-task datasets. We show that these policies not only allow for responding to language interventions, but can also learn from such interventions and outperform methods that learn from teleoperated interventions. Our website and videos are found at https://rt-hierarchy.github.io.
PDF91December 15, 2024