ChatPaper.aiChatPaper

Vers un système double synergique, généralisé et efficace pour la manipulation robotique.

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

October 10, 2024
Auteurs: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI

Résumé

La demande croissante de systèmes robotiques polyvalents pour opérer dans des environnements divers et dynamiques a souligné l'importance d'une politique généraliste, qui exploite un large corpus de données trans-embodiment pour faciliter une adaptabilité étendue et un raisonnement de haut niveau. Cependant, le généraliste pourrait rencontrer des difficultés avec une inférence inefficace et un entraînement coûteux. La politique spécialiste, quant à elle, est conçue pour des données de domaine spécifique et excelle en précision au niveau des tâches avec efficacité. Cependant, elle manque de capacité de généralisation pour une large gamme d'applications. Inspirés par ces observations, nous présentons RoboDual, un système double synergique qui complète les mérites à la fois de la politique généraliste et spécialiste. Un spécialiste basé sur un transformateur de diffusion est conçu pour des séquences d'actions multi-étapes, conditionné de manière exquise par la compréhension de la tâche de haut niveau et la sortie d'actions discrétisées d'un généraliste basé sur la vision-langage-action (VLA). Comparé à OpenVLA, RoboDual obtient une amélioration de 26,7% en environnement réel et un gain de 12% sur CALVIN en introduisant une politique spécialiste avec seulement 20 millions de paramètres entraînables. Il maintient de bonnes performances avec seulement 5% de données de démonstration et permet une fréquence de contrôle 3,8 fois plus élevée en déploiement réel. Le code sera rendu publiquement disponible. Notre page de projet est hébergée sur : https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and dynamic environments has emphasized the importance of a generalist policy, which leverages a large cross-embodiment data corpus to facilitate broad adaptability and high-level reasoning. However, the generalist would struggle with inefficient inference and cost-expensive training. The specialist policy, instead, is curated for specific domain data and excels at task-level precision with efficiency. Yet, it lacks the generalization capacity for a wide range of applications. Inspired by these observations, we introduce RoboDual, a synergistic dual-system that supplements the merits of both generalist and specialist policy. A diffusion transformer-based specialist is devised for multi-step action rollouts, exquisitely conditioned on the high-level task understanding and discretized action output of a vision-language-action (VLA) based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in real-world setting and 12% gain on CALVIN by introducing a specialist policy with merely 20M trainable parameters. It maintains strong performance with 5% of demonstration data only, and enables a 3.8 times higher control frequency in real-world deployment. Code would be made publicly available. Our project page is hosted at: https://opendrivelab.com/RoboDual/

Summary

AI-Generated Summary

PDF42November 16, 2024