Apprentissage de segments d'action continus à haute fréquence dans l'espace latent

Résumé

Les politiques robotiques modernes s'appuient de plus en plus sur le découpage en actions (action chunking) pour exécuter des tâches complexes dans le monde physique. Bien que cette approche améliore la cohérence temporelle à des fréquences d'action modérées, elle devient insuffisante lorsque la fréquence d'action est augmentée (par exemple jusqu'à 60 Hz). À de telles hautes fréquences, les politiques échouent souvent à générer des actions à la fois temporellement lisses et spatialement cohérentes. Nous relevons ce défi en transférant l'apprentissage d'actions à haute fréquence de l'espace d'action vers un espace latent à l'aide d'un autoencodeur variationnel (VAE). Cette formulation améliore significativement la cohérence temporelle et spatiale du contrôle à haute fréquence. Pour permettre une exécution fluide en temps réel, nous introduisons Reuse-then-Refine, une stratégie de raffinement au niveau des chunks qui améliore la continuité entre les chunks d'actions adjacents lors d'une inférence asynchrone. Ainsi, les robots contrôlés par notre politique peuvent exécuter des tâches complexes impliquant des contacts de manière continue, avec moins de pauses et de mouvements saccadés. Des expériences sur trois tâches robotiques réelles avec contacts montrent que notre approche accomplit systématiquement les tâches avec des mouvements fluides. Notre code et nos données sont disponibles à l'adresse https://github.com/tars-robotics/RTR.

English

Modern robotic policies increasingly rely on action chunking to execute complex tasks in the physical world. While action chunking improves temporal consistency at moderate action frequencies, it becomes insufficient when the action frequency is further increased (e.g., to 60~Hz). At such high frequencies, policies often fail to generate actions that are both temporally smooth and spatially consistent. We address this challenge by shifting high-frequency action learning from the action space to a latent space with variational autoencoder (VAE). This formulation significantly improves both temporal and spatial consistency of high-frequency control. To enable smooth real-time execution, we further introduce Reuse-then-Refine, a chunk-level refine strategy that improves continuity between adjacent action chunks under asynchronous inference. As a result, robots controlled by our policy can execute complex contact-rich tasks continuously, with less pauses and jerky motions. Experiments on three real-world contact-rich robotic tasks show that our approach consistently completes tasks with smooth motions. Our code and data are available at https://github.com/tars-robotics/RTR.