Rumo a um Sistema Duplo para Manipulação Robótica Sinérgico, Generalizado e Eficiente
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
Autores: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
Resumo
A crescente demanda por sistemas robóticos versáteis para operar em ambientes diversos e dinâmicos tem enfatizado a importância de uma política generalista, que aproveita um grande corpus de dados de múltiplas encarnações para facilitar uma adaptabilidade ampla e raciocínio de alto nível. No entanto, o generalista teria dificuldades com inferências ineficientes e treinamento dispendioso. A política especialista, por outro lado, é elaborada para dados de domínio específico e se destaca na precisão ao nível da tarefa com eficiência. No entanto, ela carece da capacidade de generalização para uma ampla gama de aplicações. Inspirados por essas observações, apresentamos o RoboDual, um sistema duplo sinérgico que complementa os méritos tanto da política generalista quanto da especialista. Um especialista baseado em transformador de difusão é concebido para sequências de ações em vários passos, requintadamente condicionado à compreensão da tarefa de alto nível e à saída de ação discretizada de um generalista baseado em visão-linguagem-ação (VLA). Comparado ao OpenVLA, o RoboDual alcança uma melhoria de 26,7% em um ambiente do mundo real e um ganho de 12% no CALVIN ao introduzir uma política especialista com meros 20 milhões de parâmetros treináveis. Ele mantém um desempenho sólido com apenas 5% dos dados de demonstração e possibilita uma frequência de controle 3,8 vezes maior na implantação no mundo real. O código será disponibilizado publicamente. Nossa página do projeto está hospedada em: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary