ChatPaper.aiChatPaper

Hacia un Sistema Dual para la Manipulación Robótica que sea Sinérgico, Generalizado y Eficiente

Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation

October 10, 2024
Autores: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao
cs.AI

Resumen

La creciente demanda de sistemas robóticos versátiles para operar en entornos diversos y dinámicos ha enfatizado la importancia de una política generalista, que aprovecha un gran corpus de datos transversales de encarnaciones para facilitar una adaptabilidad amplia y un razonamiento de alto nivel. Sin embargo, el generalista tendría dificultades con inferencias ineficientes y un entrenamiento costoso. La política especialista, en cambio, está diseñada para datos de dominio específico y destaca en precisión a nivel de tarea con eficiencia. Aun así, carece de la capacidad de generalización para una amplia gama de aplicaciones. Inspirados por estas observaciones, presentamos RoboDual, un sistema dual sinérgico que complementa los méritos tanto de la política generalista como de la especialista. Se ha diseñado un especialista basado en transformadores de difusión para secuencias de acciones de múltiples pasos, exquisitamente condicionado por la comprensión de tareas de alto nivel y la salida de acciones discretizadas de un generalista basado en visión-lenguaje-acción (VLA). En comparación con OpenVLA, RoboDual logra una mejora del 26.7% en un entorno del mundo real y un aumento del 12% en CALVIN al introducir una política especialista con tan solo 20 millones de parámetros entrenables. Mantiene un rendimiento sólido con solo el 5% de los datos de demostración y permite una frecuencia de control 3.8 veces mayor en implementaciones del mundo real. El código estará disponible públicamente. Nuestra página de proyecto se encuentra en: https://opendrivelab.com/RoboDual/
English
The increasing demand for versatile robotic systems to operate in diverse and dynamic environments has emphasized the importance of a generalist policy, which leverages a large cross-embodiment data corpus to facilitate broad adaptability and high-level reasoning. However, the generalist would struggle with inefficient inference and cost-expensive training. The specialist policy, instead, is curated for specific domain data and excels at task-level precision with efficiency. Yet, it lacks the generalization capacity for a wide range of applications. Inspired by these observations, we introduce RoboDual, a synergistic dual-system that supplements the merits of both generalist and specialist policy. A diffusion transformer-based specialist is devised for multi-step action rollouts, exquisitely conditioned on the high-level task understanding and discretized action output of a vision-language-action (VLA) based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in real-world setting and 12% gain on CALVIN by introducing a specialist policy with merely 20M trainable parameters. It maintains strong performance with 5% of demonstration data only, and enables a 3.8 times higher control frequency in real-world deployment. Code would be made publicly available. Our project page is hosted at: https://opendrivelab.com/RoboDual/

Summary

AI-Generated Summary

PDF42November 16, 2024