Erlernen hochfrequenter kontinuierlicher Aktionsblöcke im latenten Raum

Zusammenfassung

Moderne Roboterstrategien verlassen sich zunehmend auf Action Chunking, um komplexe Aufgaben in der physischen Welt auszuführen. Während Action Chunking die zeitliche Konsistenz bei moderaten Aktionsfrequenzen verbessert, wird es unzureichend, wenn die Aktionsfrequenz weiter erhöht wird (z. B. auf 60 Hz). Bei solch hohen Frequenzen gelingt es Strategien oft nicht, Aktionen zu generieren, die sowohl zeitlich glatt als auch räumlich konsistent sind. Wir begegnen dieser Herausforderung, indem wir das hochfrequente Aktionslernen vom Aktionsraum in einen latenten Raum mit einem Variational Autoencoder (VAE) verlagern. Diese Formulierung verbessert sowohl die zeitliche als auch die räumliche Konsistenz der hochfrequenten Steuerung erheblich. Um eine reibungslose Echtzeitausführung zu ermöglichen, führen wir außerdem Reuse-then-Refine ein, eine Strategie zur Verfeinerung auf Chunk-Ebene, die die Kontinuität zwischen benachbarten Aktions-Chunks unter asynchroner Inferenz verbessert. Dadurch können Roboter, die von unserer Strategie gesteuert werden, komplexe kontaktreiche Aufgaben kontinuierlich ausführen, mit weniger Pausen und ruckartigen Bewegungen. Experimente an drei realen kontaktreichen Roboteraufgaben zeigen, dass unser Ansatz Aufgaben konsequent mit flüssigen Bewegungen abschließt. Unser Code und unsere Daten sind verfügbar unter https://github.com/tars-robotics/RTR.

English

Modern robotic policies increasingly rely on action chunking to execute complex tasks in the physical world. While action chunking improves temporal consistency at moderate action frequencies, it becomes insufficient when the action frequency is further increased (e.g., to 60~Hz). At such high frequencies, policies often fail to generate actions that are both temporally smooth and spatially consistent. We address this challenge by shifting high-frequency action learning from the action space to a latent space with variational autoencoder (VAE). This formulation significantly improves both temporal and spatial consistency of high-frequency control. To enable smooth real-time execution, we further introduce Reuse-then-Refine, a chunk-level refine strategy that improves continuity between adjacent action chunks under asynchronous inference. As a result, robots controlled by our policy can execute complex contact-rich tasks continuously, with less pauses and jerky motions. Experiments on three real-world contact-rich robotic tasks show that our approach consistently completes tasks with smooth motions. Our code and data are available at https://github.com/tars-robotics/RTR.