Aprendizado de Continuação Nativa para Políticas de Fluxo de Agrupamento de Ações
Learning Native Continuation for Action Chunking Flow Policies
February 13, 2026
Autores: Yufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
Resumo
A fragmentação de ações permite que os modelos Visão-Linguagem-Ação (VLA) operem em tempo real, mas a execução ingênua por fragmentos frequentemente exibe descontinuidades nas fronteiras entre os fragmentos. A Fragmentação em Tempo Real (RTC) atenua este problema, mas é externa à política, levando a comutações multimodais espúrias e trajetórias que não são intrinsecamente suaves. Propomos o *Legato*, um método de continuação durante o treinamento para políticas VLA baseadas em fluxo e fragmentadas por ação. Especificamente, o *Legato* inicializa a remoção de ruído a partir de uma mistura, moldada por um cronograma, de ações conhecidas e ruído, expondo o modelo a informações parciais de ação. Além disso, o *Legato* remodela a dinâmica de fluxo aprendida para garantir que o processo de remoção de ruído permaneça consistente entre o treinamento e a inferência sob orientação por passo. O *Legato* utiliza ainda um cronograma de condição aleatorizado durante o treinamento para suportar atrasos de inferência variáveis e alcançar uma suavidade controlável. Empiricamente, o *Legato* produz trajetórias mais suaves e reduz as comutações multimodais espúrias durante a execução, resultando em menos hesitação e menor tempo de conclusão da tarefa. Extensos experimentos no mundo real mostram que o *Legato* supera consistentemente o RTC em cinco tarefas de manipulação, alcançando melhorias de aproximadamente 10% tanto na suavidade da trajetória quanto no tempo de conclusão da tarefa.
English
Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.