Apprendimento della Continuazione Nativa per Politiche di Flusso di Segmentazione delle Azioni

Abstract

La segmentazione delle azioni consente ai modelli Vision Language Action (VLA) di operare in tempo reale, ma l'esecuzione ingenua delle azioni segmentate presenta spesso discontinuità ai confini dei segmenti. Il Real-Time Chunking (RTC) mitiga questo problema, ma essendo esterno alla policy, porta a commutazioni multimodali spurie e traiettorie non intrinsecamente fluide. Proponiamo Legato, un metodo di continuazione applicato durante l'addestramento per policy VLA basate su flusso con azioni segmentate. Nello specifico, Legato inizializza il processo di rimozione del rumore partendo da una miscela, modellata in base allo scheduling, di azioni note e rumore, esponendo così il modello a informazioni parziali sulle azioni. Inoltre, Legato rimodella la dinamica del flusso appresa per garantire la coerenza del processo di rimozione del rumore tra addestramento e inferenza sotto guida passo-passo. Legato utilizza inoltre una condizione di scheduling randomizzata durante l'addestramento per supportare ritardi di inferenza variabili e raggiungere una fluidità controllabile. Empiricamente, Legato produce traiettorie più fluide e riduce le commutazioni multimodali spurie durante l'esecuzione, portando a minori esitazioni e tempi di completamento del task più brevi. Esperimenti estensivi nel mondo reale mostrano che Legato supera costantemente l'RTC in cinque compiti di manipolazione, ottenendo miglioramenti approssimativi del 10% sia nella fluidità della traiettoria che nel tempo di completamento del task.

English

Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.

Apprendimento della Continuazione Nativa per Politiche di Flusso di Segmentazione delle Azioni

Learning Native Continuation for Action Chunking Flow Policies

Abstract

Support