DynamicVLA: 動的物体操作のための視覚言語行動モデル
DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation
January 29, 2026
著者: Haozhe Xie, Beichen Wen, Jiarui Zheng, Zhaoxi Chen, Fangzhou Hong, Haiwen Diao, Ziwei Liu
cs.AI
要旨
動的物体の操作は、Vision-Language-Action(VLA)モデルにおける未解決の課題である。静的マニピュレーションでは優れた一般化能力を示すVLAモデルも、迅速な知覚・時間的予測・連続的制御を要する動的環境では困難に直面する。本論文では、動的物体操作のためのフレームワークDynamicVLAを提案する。本枠組みは、時間的推論と閉ループ適応を統合する以下の3つの核心的設計により実現されている:1)空間効率に優れ構造忠実な符号化を可能にする畳み込み視覚エンコーダを採用したコンパクトな0.4BパラメータVLAモデルによる高速マルチモーダル推論、2)推論と実行の重複処理を実現し低レイテンシと物体運動への即時適応を可能にする連続推論機構、3)知覚と実行の時間的整合性を強制することで両者のギャップを埋める潜在意識的行動ストリーミング。さらに動的マニピュレーションの基盤データ不足を解決するため、自動データ収集パイプラインで2,800シーン・206物体にわたる20万の合成エピソードを効率的に構築し、2,000の実世界エピソードを遠隔操作なしで迅速に収集可能なDynamic Object Manipulation(DOM)ベンチマークを新規に構築した。広範な評価により、応答速度・知覚性能・一般化能力において顕著な改善を実証し、DynamicVLAが具現形態を超えた汎用的な動的物体操作の統一フレームワークとして有効であることを示す。
English
Manipulating dynamic objects remains an open challenge for Vision-Language-Action (VLA) models, which, despite strong generalization in static manipulation, struggle in dynamic scenarios requiring rapid perception, temporal anticipation, and continuous control. We present DynamicVLA, a framework for dynamic object manipulation that integrates temporal reasoning and closed-loop adaptation through three key designs: 1) a compact 0.4B VLA using a convolutional vision encoder for spatially efficient, structurally faithful encoding, enabling fast multimodal inference; 2) Continuous Inference, enabling overlapping reasoning and execution for lower latency and timely adaptation to object motion; and 3) Latent-aware Action Streaming, which bridges the perception-execution gap by enforcing temporally aligned action execution. To fill the missing foundation of dynamic manipulation data, we introduce the Dynamic Object Manipulation (DOM) benchmark, built from scratch with an auto data collection pipeline that efficiently gathers 200K synthetic episodes across 2.8K scenes and 206 objects, and enables fast collection of 2K real-world episodes without teleoperation. Extensive evaluations demonstrate remarkable improvements in response speed, perception, and generalization, positioning DynamicVLA as a unified framework for general dynamic object manipulation across embodiments.