ChatPaper.aiChatPaper

RVT-2: Apprendimento di manipolazioni precise da poche dimostrazioni

RVT-2: Learning Precise Manipulation from Few Demonstrations

June 12, 2024
Autori: Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox
cs.AI

Abstract

In questo lavoro, studiamo come costruire un sistema robotico in grado di risolvere molteplici compiti di manipolazione 3D dati istruzioni linguistiche. Per essere utile in ambiti industriali e domestici, un tale sistema dovrebbe essere capace di apprendere nuovi compiti con poche dimostrazioni e risolverli con precisione. Lavori precedenti, come PerAct e RVT, hanno studiato questo problema, ma spesso incontrano difficoltà con compiti che richiedono alta precisione. Studiamo come renderli più efficaci, precisi e veloci. Utilizzando una combinazione di miglioramenti architetturali e a livello di sistema, proponiamo RVT-2, un modello di manipolazione 3D multitask che è 6 volte più veloce nell'addestramento e 2 volte più veloce nell'inferenza rispetto al suo predecessore RVT. RVT-2 raggiunge un nuovo stato dell'arte su RLBench, migliorando il tasso di successo dal 65% all'82%. RVT-2 è anche efficace nel mondo reale, dove può apprendere compiti che richiedono alta precisione, come raccogliere e inserire spine, con solo 10 dimostrazioni. Risultati visivi, codice e modello addestrato sono disponibili su: https://robotic-view-transformer-2.github.io/.
English
In this work, we study how to build a robotic system that can solve multiple 3D manipulation tasks given language instructions. To be useful in industrial and household domains, such a system should be capable of learning new tasks with few demonstrations and solving them precisely. Prior works, like PerAct and RVT, have studied this problem, however, they often struggle with tasks requiring high precision. We study how to make them more effective, precise, and fast. Using a combination of architectural and system-level improvements, we propose RVT-2, a multitask 3D manipulation model that is 6X faster in training and 2X faster in inference than its predecessor RVT. RVT-2 achieves a new state-of-the-art on RLBench, improving the success rate from 65% to 82%. RVT-2 is also effective in the real world, where it can learn tasks requiring high precision, like picking up and inserting plugs, with just 10 demonstrations. Visual results, code, and trained model are provided at: https://robotic-view-transformer-2.github.io/.
PDF71January 17, 2026