Verso un sistema duale per la manipolazione robotica sinergico, generalizzato ed efficiente.
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
Autori: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
Abstract
La crescente domanda di sistemi robotici versatili per operare in ambienti diversi e dinamici ha sottolineato l'importanza di una politica generalista, che sfrutti un ampio corpus di dati intercorpo per facilitare un'ampia adattabilità e un ragionamento di alto livello. Tuttavia, il generalista potrebbe avere difficoltà con un'infereza inefficiente e un addestramento costoso. La politica specialistica, invece, è curata per dati di dominio specifico ed eccelle nella precisione a livello di attività con efficienza. Tuttavia, manca della capacità di generalizzazione per una vasta gamma di applicazioni. Ispirati a queste osservazioni, presentiamo RoboDual, un sistema duale sinergico che integra i meriti sia della politica generalista che di quella specialistica. Viene ideato un esperto basato su trasformatori per rollout di azioni multi-step, accuratamente condizionato alla comprensione delle attività di alto livello e all'output di azioni discretizzate di un generalista basato su visione-linguaggio-azione (VLA). Rispetto a OpenVLA, RoboDual ottiene un miglioramento del 26,7% in un contesto reale e un aumento del 12% su CALVIN introducendo una politica specialistica con soli 20M di parametri addestrabili. Mantiene elevate prestazioni con soli il 5% dei dati dimostrativi e consente una frequenza di controllo 3,8 volte superiore nell'implementazione nel mondo reale. Il codice sarà reso pubblicamente disponibile. La nostra pagina del progetto è ospitata su: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary