Hacia un Sistema Dual para la Manipulación Robótica que sea Sinérgico, Generalizado y Eficiente
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
October 10, 2024
Autores: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI
Resumen
La creciente demanda de sistemas robóticos versátiles para operar en entornos diversos y dinámicos ha enfatizado la importancia de una política generalista, que aprovecha un gran corpus de datos transversales de encarnaciones para facilitar una adaptabilidad amplia y un razonamiento de alto nivel. Sin embargo, el generalista tendría dificultades con inferencias ineficientes y un entrenamiento costoso. La política especialista, en cambio, está diseñada para datos de dominio específico y destaca en precisión a nivel de tarea con eficiencia. Aun así, carece de la capacidad de generalización para una amplia gama de aplicaciones. Inspirados por estas observaciones, presentamos RoboDual, un sistema dual sinérgico que complementa los méritos tanto de la política generalista como de la especialista. Se ha diseñado un especialista basado en transformadores de difusión para secuencias de acciones de múltiples pasos, exquisitamente condicionado por la comprensión de tareas de alto nivel y la salida de acciones discretizadas de un generalista basado en visión-lenguaje-acción (VLA). En comparación con OpenVLA, RoboDual logra una mejora del 26.7% en un entorno del mundo real y un aumento del 12% en CALVIN al introducir una política especialista con tan solo 20 millones de parámetros entrenables. Mantiene un rendimiento sólido con solo el 5% de los datos de demostración y permite una frecuencia de control 3.8 veces mayor en implementaciones del mundo real. El código estará disponible públicamente. Nuestra página de proyecto se encuentra en: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and
dynamic environments has emphasized the importance of a generalist policy,
which leverages a large cross-embodiment data corpus to facilitate broad
adaptability and high-level reasoning. However, the generalist would struggle
with inefficient inference and cost-expensive training. The specialist policy,
instead, is curated for specific domain data and excels at task-level precision
with efficiency. Yet, it lacks the generalization capacity for a wide range of
applications. Inspired by these observations, we introduce RoboDual, a
synergistic dual-system that supplements the merits of both generalist and
specialist policy. A diffusion transformer-based specialist is devised for
multi-step action rollouts, exquisitely conditioned on the high-level task
understanding and discretized action output of a vision-language-action (VLA)
based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in
real-world setting and 12% gain on CALVIN by introducing a specialist policy
with merely 20M trainable parameters. It maintains strong performance with 5%
of demonstration data only, and enables a 3.8 times higher control frequency in
real-world deployment. Code would be made publicly available. Our project page
is hosted at: https://opendrivelab.com/RoboDual/Summary
AI-Generated Summary