Обучение высокочастотных непрерывных фрагментов действий в латентном пространстве

Аннотация

Современные роботизированные политики всё чаще полагаются на чанкинг действий для выполнения сложных задач в физическом мире. Хотя чанкинг действий улучшает временную согласованность при умеренных частотах действий, он становится недостаточным при дальнейшем увеличении частоты действий (например, до 60 Гц). На таких высоких частотах политики часто не могут генерировать действия, которые были бы одновременно временно плавными и пространственно согласованными. Мы решаем эту задачу, перенося обучение высокочастотным действиям из пространства действий в скрытое пространство с помощью вариационного автоэнкодера (VAE). Такая формулировка значительно улучшает как временную, так и пространственную согласованность высокочастотного управления. Для обеспечения плавного выполнения в реальном времени мы дополнительно вводим Reuse-then-Refine — стратегию уточнения на уровне чанков, которая улучшает непрерывность между соседними чанками действий при асинхронном выводе. В результате роботы, управляемые нашей политикой, могут выполнять сложные задачи, связанные с контактом, непрерывно, с меньшим количеством пауз и дерганых движений. Эксперименты на трёх реальных контактно-насыщенных роботизированных задачах показывают, что наш подход последовательно выполняет задачи с плавными движениями. Наш код и данные доступны по адресу https://github.com/tars-robotics/RTR.

English

Modern robotic policies increasingly rely on action chunking to execute complex tasks in the physical world. While action chunking improves temporal consistency at moderate action frequencies, it becomes insufficient when the action frequency is further increased (e.g., to 60~Hz). At such high frequencies, policies often fail to generate actions that are both temporally smooth and spatially consistent. We address this challenge by shifting high-frequency action learning from the action space to a latent space with variational autoencoder (VAE). This formulation significantly improves both temporal and spatial consistency of high-frequency control. To enable smooth real-time execution, we further introduce Reuse-then-Refine, a chunk-level refine strategy that improves continuity between adjacent action chunks under asynchronous inference. As a result, robots controlled by our policy can execute complex contact-rich tasks continuously, with less pauses and jerky motions. Experiments on three real-world contact-rich robotic tasks show that our approach consistently completes tasks with smooth motions. Our code and data are available at https://github.com/tars-robotics/RTR.