Robots pre-entrenan a Robots: Representación Robótica Centrada en la Manipulación a partir de un Conjunto de Datos Robóticos a Gran Escala

Resumen

El pre-entrenamiento de representaciones visuales ha mejorado la eficiencia del aprendizaje de robots. Debido a la falta de conjuntos de datos robóticos en dominios a gran escala, trabajos previos utilizan videos humanos en entornos naturales para pre-entrenar la representación visual robótica. A pesar de sus resultados prometedores, las representaciones de videos humanos están inevitablemente sujetas a cambios en la distribución y carecen de la información dinámica crucial para la finalización de tareas. Primero evaluamos varias representaciones pre-entrenadas en términos de su correlación con las tareas robóticas de manipulación subsecuentes (es decir, centralidad de la manipulación). De manera interesante, descubrimos que la "centralidad de la manipulación" es un fuerte indicador de las tasas de éxito cuando se aplica a tareas subsecuentes. Basándonos en estos hallazgos, proponemos la Representación Centrada en la Manipulación (MCR), un marco de aprendizaje de representación fundamental que captura tanto características visuales como la información dinámica, como acciones y propiocepciones de tareas de manipulación para mejorar la centralidad de la manipulación. Específicamente, pre-entrenamos un codificador visual en el conjunto de datos robóticos DROID y aprovechamos datos relevantes para el movimiento, como estados propioceptivos y acciones del robot. Introducimos una pérdida contrastiva novedosa que alinea observaciones visuales con la dinámica estado-acción propioceptiva del robot, combinada con una pérdida de actor similar a clonación de comportamiento (BC) para predecir acciones durante el pre-entrenamiento, junto con una pérdida contrastiva temporal. Los resultados empíricos en 4 dominios de simulación con 20 tareas verifican que MCR supera al método base más sólido en un 14.8%. Además, MCR mejora el rendimiento del aprendizaje eficiente de datos con un brazo UR5e en 3 tareas del mundo real en un 76.9%. Sitio web del proyecto: https://robots-pretrain-robots.github.io/.

English

The pre-training of visual representations has enhanced the efficiency of robot learning. Due to the lack of large-scale in-domain robotic datasets, prior works utilize in-the-wild human videos to pre-train robotic visual representation. Despite their promising results, representations from human videos are inevitably subject to distribution shifts and lack the dynamics information crucial for task completion. We first evaluate various pre-trained representations in terms of their correlation to the downstream robotic manipulation tasks (i.e., manipulation centricity). Interestingly, we find that the "manipulation centricity" is a strong indicator of success rates when applied to downstream tasks. Drawing from these findings, we propose Manipulation Centric Representation (MCR), a foundation representation learning framework capturing both visual features and the dynamics information such as actions and proprioceptions of manipulation tasks to improve manipulation centricity. Specifically, we pre-train a visual encoder on the DROID robotic dataset and leverage motion-relevant data such as robot proprioceptive states and actions. We introduce a novel contrastive loss that aligns visual observations with the robot's proprioceptive state-action dynamics, combined with a behavior cloning (BC)-like actor loss to predict actions during pre-training, along with a time contrastive loss. Empirical results across 4 simulation domains with 20 tasks verify that MCR outperforms the strongest baseline method by 14.8%. Moreover, MCR boosts the performance of data-efficient learning with a UR5e arm on 3 real-world tasks by 76.9%. Project website: https://robots-pretrain-robots.github.io/.

Robots pre-entrenan a Robots: Representación Robótica Centrada en la Manipulación a partir de un Conjunto de Datos Robóticos a Gran Escala

Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Dataset

Resumen

Support