Aprendizaje de Fragmentos de Acción Continua de Alta Frecuencia en el Espacio Latente

Resumen

Las políticas robóticas modernas dependen cada vez más de la fragmentación de acciones para ejecutar tareas complejas en el mundo físico. Si bien la fragmentación de acciones mejora la consistencia temporal a frecuencias de acción moderadas, resulta insuficiente cuando la frecuencia de acción se incrementa aún más (por ejemplo, hasta 60 Hz). A frecuencias tan altas, las políticas suelen fallar en generar acciones que sean tanto temporalmente suaves como espacialmente consistentes. Abordamos este desafío trasladando el aprendizaje de acciones de alta frecuencia desde el espacio de acción a un espacio latente mediante un autoencoder variacional (VAE). Esta formulación mejora significativamente tanto la consistencia temporal como la espacial del control de alta frecuencia. Para permitir una ejecución fluida en tiempo real, introducimos Reuse-then-Refine, una estrategia de refinamiento a nivel de fragmentos que mejora la continuidad entre fragmentos de acción adyacentes bajo inferencia asíncrona. Como resultado, los robots controlados por nuestra política pueden ejecutar tareas complejas de contacto intensivo de manera continua, con menos pausas y movimientos bruscos. Los experimentos en tres tareas robóticas reales de contacto intensivo muestran que nuestro enfoque completa las tareas de manera consistente con movimientos suaves. Nuestro código y datos están disponibles en https://github.com/tars-robotics/RTR.

English

Modern robotic policies increasingly rely on action chunking to execute complex tasks in the physical world. While action chunking improves temporal consistency at moderate action frequencies, it becomes insufficient when the action frequency is further increased (e.g., to 60~Hz). At such high frequencies, policies often fail to generate actions that are both temporally smooth and spatially consistent. We address this challenge by shifting high-frequency action learning from the action space to a latent space with variational autoencoder (VAE). This formulation significantly improves both temporal and spatial consistency of high-frequency control. To enable smooth real-time execution, we further introduce Reuse-then-Refine, a chunk-level refine strategy that improves continuity between adjacent action chunks under asynchronous inference. As a result, robots controlled by our policy can execute complex contact-rich tasks continuously, with less pauses and jerky motions. Experiments on three real-world contact-rich robotic tasks show that our approach consistently completes tasks with smooth motions. Our code and data are available at https://github.com/tars-robotics/RTR.