К Синергетической, Обобщенной и Эффективной Двойной Системе для Роботизированного Управления
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
Авторы: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
Аннотация
Растущий спрос на универсальные робототехнические системы для работы в разнообразных и динамичных средах подчеркнул важность общего подхода, который использует большой корпус данных, охватывающий различные воплощения, для обеспечения широкой адаптивности и высокоуровневого рассуждения. Однако общий подход сталкивается с проблемами неэффективного вывода и дорогостоящего обучения. Специализированный подход, напротив, создан для конкретных данных области и отличается точностью на уровне задач с высокой эффективностью. Однако ему не хватает возможности обобщения для широкого спектра приложений. Вдохновленные этими наблюдениями, мы представляем RoboDual, синергетическую двойную систему, которая дополняет преимущества как общего, так и специализированного подходов. Для многошаговых последовательностей действий разработан специализированный подход на основе трансформера диффузии, изысканно настроенный на понимание задач на высоком уровне и дискретизированный выход действий на основе видео-языково-действенного (VLA) общего подхода. По сравнению с OpenVLA, RoboDual достигает улучшения на 26,7% в реальной среде и на 12% на CALVIN за счет внедрения специализированного подхода с всего лишь 20 млн обучаемых параметров. Он сохраняет высокую производительность, используя всего лишь 5% демонстрационных данных, и обеспечивает в 3,8 раза более высокую частоту управления в реальной среде. Код будет сделан общедоступным. Наша страница проекта размещена по адресу: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary