アクション区間化フロー方策のためのネイティブ連続学習
Learning Native Continuation for Action Chunking Flow Policies
February 13, 2026
著者: Yufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao
cs.AI
要旨
アクションチャンキングはVision Language Action (VLA) モデルをリアルタイムで動作させることを可能にするが、単純なチャンク単位の実行では、チャンク境界で不連続性が生じることが多い。リアルタイムチャンキング (RTC) はこの問題を軽減するが、方策の外部で行われるため、擬似的なマルチモーダル切り替えや、本質的に滑らかではない軌道が生じる。本研究では、アクションチャンキングされたフローベースVLA方策のための学習時継続手法であるLegatoを提案する。具体的には、Legatoは既知のアクションとノイズのスケジュール形状混合からデノイジングを初期化し、モデルに部分的なアクション情報を提示する。さらに、Legatoは学習されたフロー力学を再形成し、ステップ毎のガイダンス下での推論時と学習時のデノイジング過程の一貫性を保証する。Legatoはさらに、学習中にランダム化されたスケジュール条件を使用することで、推論時の様々な遅延に対応し、制御可能な滑らかさを実現する。実験により、Legatoがより滑らかな軌道を生成し、実行中の擬似的なマルチモーダル切り替えを減少させ、ためらいを減らし、タスク完了時間を短縮することが示された。広範な実世界実験により、Legatoが5つのマニピュレーションタスクにおいてRTCを一貫して上回り、軌道の滑らかさとタスク完了時間の両方で約10%の改善を達成することが確認された。
English
Action chunking enables Vision Language Action (VLA) models to run in real time, but naive chunked execution often exhibits discontinuities at chunk boundaries. Real-Time Chunking (RTC) alleviates this issue but is external to the policy, leading to spurious multimodal switching and trajectories that are not intrinsically smooth. We propose Legato, a training-time continuation method for action-chunked flow-based VLA policies. Specifically, Legato initializes denoising from a schedule-shaped mixture of known actions and noise, exposing the model to partial action information. Moreover, Legato reshapes the learned flow dynamics to ensure that the denoising process remains consistent between training and inference under per-step guidance. Legato further uses randomized schedule condition during training to support varying inference delays and achieve controllable smoothness. Empirically, Legato produces smoother trajectories and reduces spurious multimodal switching during execution, leading to less hesitation and shorter task completion time. Extensive real-world experiments show that Legato consistently outperforms RTC across five manipulation tasks, achieving approximately 10% improvements in both trajectory smoothness and task completion time.