ChatPaper.aiChatPaper

動的環境における汎用性の高いロボットマニピュレーションに向けて

Towards Generalizable Robotic Manipulation in Dynamic Environments

March 16, 2026
著者: Heng Fang, Shangru Li, Shuhan Wang, Xuanyang Xi, Dingkang Liang, Xiang Bai
cs.AI

要旨

視覚言語動作(VLA)モデルは静的操作において優れる一方、移動標的を含む動的環境では課題を抱えている。この性能差は主に、動的操作データセットの不足と、主流のVLAモデルが単一フレーム観測に依存するため時空間推論能力が制限されることに起因する。この問題に対処するため、我々は一般化可能な動的操作のための大規模データセット及びベンチマーク「DOMINO」を提案する。DOMINOは、複雑性の階層を持つ35のタスク、11万を超える専門家軌道、多次元評価スイートを特徴とする。包括的実験を通じて、既存VLAモデルの動的タスクにおける性能を系統的に評価し、動的認識のための効果的な学習戦略を探求し、動的データの一般化可能性を検証する。さらに、動的認識VLAアーキテクチャ「PUMA」を提案する。PUMAは、シーン中心の履歴オプティカルフローと専門的なワールドクエリを統合することでオブジェクト中心の将来状態を暗黙的に予測し、履歴認識知覚と短期予測を結合する。結果として、PUMAは最先端の性能を達成し、ベースライン比で成功率が6.3%絶対値向上した。加えて、動的データによる学習が静的任务に転移可能な頑健な時空間表現を育成することを示す。全てのコード及びデータはhttps://github.com/H-EmbodVis/DOMINO で公開されている。
English
Vision-Language-Action (VLA) models excel in static manipulation but struggle in dynamic environments with moving targets. This performance gap primarily stems from a scarcity of dynamic manipulation datasets and the reliance of mainstream VLAs on single-frame observations, restricting their spatiotemporal reasoning capabilities. To address this, we introduce DOMINO, a large-scale dataset and benchmark for generalizable dynamic manipulation, featuring 35 tasks with hierarchical complexities, over 110K expert trajectories, and a multi-dimensional evaluation suite. Through comprehensive experiments, we systematically evaluate existing VLAs on dynamic tasks, explore effective training strategies for dynamic awareness, and validate the generalizability of dynamic data. Furthermore, we propose PUMA, a dynamics-aware VLA architecture. By integrating scene-centric historical optical flow and specialized world queries to implicitly forecast object-centric future states, PUMA couples history-aware perception with short-horizon prediction. Results demonstrate that PUMA achieves state-of-the-art performance, yielding a 6.3% absolute improvement in success rate over baselines. Moreover, we show that training on dynamic data fosters robust spatiotemporal representations that transfer to static tasks. All code and data are available at https://github.com/H-EmbodVis/DOMINO.
PDF32March 18, 2026