Apprentissage de la continuité native pour les politiques de flux de segmentation d'actions
Learning Native Continuation for Action Chunking Flow Policies
February 13, 2026
papers.authors: Yufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
papers.abstract
Le découpage d'actions permet aux modèles Vision-Langage-Action (VLA) de fonctionner en temps réel, mais une exécution naïve par segments présente souvent des discontinuités aux limites des segments. Le découpage temps réel (RTC) atténue ce problème mais reste externe à la politique, entraînant des commutations multimodales parasites et des trajectoires intrinsèquement non lisses. Nous proposons Legato, une méthode de continuation à l’entraînement pour les politiques VLA par flux basées sur des segments d’actions. Concrètement, Legato initialise le débruitage à partir d’un mélange, façonné par un planning, d’actions connues et de bruit, exposant ainsi le modèle à une information actionnelle partielle. De plus, Legato remodelle la dynamique de flux apprise pour garantir la cohérence du processus de débruitage entre l’entraînement et l’inférence sous guidage pas à pas. Legato utilise également un planning conditionnel aléatoire pendant l’entraînement pour supporter des délais d’inférence variables et atteindre une fluidité contrôlable. Empiriquement, Legato génère des trajectoires plus lisses et réduit les commutations multimodales parasites lors de l’exécution, conduisant à moins d’hésitation et à un temps d’accomplissement de tâche plus court. Des expériences approfondies en conditions réelles montrent que Legato surpasse constamment RTC sur cinq tâches de manipulation, avec une amélioration d’environ 10 % à la fois en fluidité de trajectoire et en temps d’exécution.
English
Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.