Изучение естественного продолжения для потоковых политик сегментации действий

Аннотация

Разделение действий на сегменты позволяет моделям «Зрение-Язык-Действие» (VLA) работать в реальном времени, однако наивное выполнение по сегментам часто приводит к разрывам на границах фрагментов. Метод Real-Time Chunking (RTC) смягчает эту проблему, но, будучи внешним по отношению к политике, вызывает ложное мультимодальное переключение и траектории, не обладающие внутренней плавностью. Мы предлагаем Legato — метод продолжения на этапе обучения для потоковых VLA-политик с фрагментированными действиями. В частности, Legato инициализирует удаление шума из сформированного расписанием смеси известных действий и шума, предоставляя модели доступ к частичной информации о действиях. Более того, Legato перестраивает изученную потоковую динамику, чтобы обеспечить согласованность процесса удаления шума между обучением и выводом при пошаговом руководстве. Legato также использует рандомизированное условие расписания во время обучения для поддержки переменных задержек вывода и достижения контролируемой плавности. Экспериментально Legato демонстрирует более плавные траектории и снижает ложное мультимодальное переключение во время выполнения, что приводит к меньшим колебаниям и сокращению времени выполнения задачи. Многочисленные эксперименты в реальных условиях показывают, что Legato стабильно превосходит RTC в пяти задачах манипулирования, достигая примерно 10% улучшений как в плавности траектории, так и во времени выполнения задачи.

English

Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.

Изучение естественного продолжения для потоковых политик сегментации действий

Learning Native Continuation for Action Chunking Flow Policies

Аннотация

Support