Aprendizagem de Blocos de Ação Contínuos de Alta Frequência no Espaço Latente

Resumo

Políticas robóticas modernas dependem cada vez mais do agrupamento de ações (action chunking) para executar tarefas complexas no mundo físico. Embora o agrupamento de ações melhore a consistência temporal em frequências moderadas de ação, torna-se insuficiente quando a frequência de ação é ainda mais aumentada (por exemplo, para 60~Hz). Nessas altas frequências, as políticas frequentemente falham em gerar ações que sejam temporalmente suaves e espacialmente consistentes. Abordamos esse desafio deslocando o aprendizado de ações de alta frequência do espaço de ações para um espaço latente com um autoencoder variacional (VAE). Essa formulação melhora significativamente tanto a consistência temporal quanto a espacial do controle em alta frequência. Para permitir uma execução suave em tempo real, introduzimos ainda o Reuse-then-Refine, uma estratégia de refinamento em nível de segmento (chunk) que melhora a continuidade entre segmentos de ação adjacentes sob inferência assíncrona. Como resultado, robôs controlados por nossa política podem executar tarefas complexas com contato intenso de forma contínua, com menos pausas e movimentos bruscos. Experimentos em três tarefas robóticas reais com contato intenso mostram que nossa abordagem completa consistentemente as tarefas com movimentos suaves. Nosso código e dados estão disponíveis em https://github.com/tars-robotics/RTR.

English

Modern robotic policies increasingly rely on action chunking to execute complex tasks in the physical world. While action chunking improves temporal consistency at moderate action frequencies, it becomes insufficient when the action frequency is further increased (e.g., to 60~Hz). At such high frequencies, policies often fail to generate actions that are both temporally smooth and spatially consistent. We address this challenge by shifting high-frequency action learning from the action space to a latent space with variational autoencoder (VAE). This formulation significantly improves both temporal and spatial consistency of high-frequency control. To enable smooth real-time execution, we further introduce Reuse-then-Refine, a chunk-level refine strategy that improves continuity between adjacent action chunks under asynchronous inference. As a result, robots controlled by our policy can execute complex contact-rich tasks continuously, with less pauses and jerky motions. Experiments on three real-world contact-rich robotic tasks show that our approach consistently completes tasks with smooth motions. Our code and data are available at https://github.com/tars-robotics/RTR.