Aprendizaje de la Continuación Nativa para Políticas de Flujo de Segmentación de Acciones

Resumen

La fragmentación de acciones permite que los modelos de Visión, Lenguaje y Acción (VLA) se ejecuten en tiempo real, pero la ejecución ingenua por fragmentos suele presentar discontinuidades en los límites de los fragmentos. La Fragmentación en Tiempo Real (RTC) mitiga este problema, pero al ser externa a la política, provoca conmutaciones multimodales espurias y trayectorias que no son intrínsecamente suaves. Proponemos Legato, un método de continuación durante el entrenamiento para políticas VLA basadas en flujo y fragmentación de acciones. Específicamente, Legato inicializa el proceso de eliminación de ruido a partir de una mezcla, con forma determinada por el programa temporal, de acciones conocidas y ruido, exponiendo así al modelo a información parcial de las acciones. Además, Legato remodela la dinámica de flujo aprendida para garantizar que el proceso de eliminación de ruido sea consistente entre el entrenamiento y la inferencia bajo guía por paso. Legato utiliza además una condición de programa temporal aleatorizada durante el entrenamiento para soportar retardos de inferencia variables y lograr una suavidad controlable. Empíricamente, Legato produce trayectorias más suaves y reduce las conmutaciones multimodales espurias durante la ejecución, lo que se traduce en menos vacilaciones y un menor tiempo de finalización de la tarea. Extensos experimentos en el mundo real demuestran que Legato supera consistentemente a RTC en cinco tareas de manipulación, logrando mejoras aproximadas del 10% tanto en la suavidad de la trayectoria como en el tiempo de finalización de la tarea.

English

Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.

Aprendizaje de la Continuación Nativa para Políticas de Flujo de Segmentación de Acciones

Learning Native Continuation for Action Chunking Flow Policies

Resumen

Support