MIND-V: RLベースの物理的整合性を備えた長期的ロボットマニピュレーションのための階層的ビデオ生成
MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
December 7, 2025
著者: Ruicheng Zhang, Mingyang Zhang, Jun Zhou, Zhangrui Guo, Xiaofan Liu, Zunnan Xu, Zhizhou Zhong, Puxin Yan, Haocheng Luo, Xiu Li
cs.AI
要旨
身体性模倣学習は、多様で長期的なロボット操作データの不足によって制約を受けている。この分野における既存の動画生成モデルは、単純な動作の短いクリップの合成に限定され、手動で定義された軌道に依存することが多い。この課題に対処するため、我々は物理的に妥当かつ論理的に一貫した長期的ロボット操作動画を合成する階層的フレームワーク「MIND-V」を提案する。認知科学に着想を得たMIND-Vは、以下の3つの核心コンポーネントを通じて高次推論と画素レベル合成を橋渡しする:事前学習済み視覚言語モデルを活用してタスク計画を行う意味的推論ハブ(SRH)、抽象的な指示を領域不変表現に変換する行動的意味ブリッジ(BSB)、条件付き動画レンダリングを行うモーター動画生成器(MVG)。MIND-Vはテスト時最適化戦略である段階的視覚的未来ロールアウトを採用し、長期的な頑健性を向上させる。生成動画を物理法則に適合させるため、新たな物理的予測一貫性(PFC)報酬に導かれたGRPO強化学習による事後学習段階を導入する。PFCはV-JEPA世界モデルを活用し、特徴空間における予測と実際の動的変化の整合性を強制することで物理的妥当性を確保する。MIND-Vは長期的ロボット操作動画生成において最先端の性能を示し、身体性データ合成のためのスケーラブルで制御可能なパラダイムを確立する。
English
Embodied imitation learning is constrained by the scarcity of diverse, long-horizon robotic manipulation data. Existing video generation models for this domain are limited to synthesizing short clips of simple actions and often rely on manually defined trajectories. To this end, we introduce MIND-V, a hierarchical framework designed to synthesize physically plausible and logically coherent videos of long-horizon robotic manipulation. Inspired by cognitive science, MIND-V bridges high-level reasoning with pixel-level synthesis through three core components: a Semantic Reasoning Hub (SRH) that leverages a pre-trained vision-language model for task planning; a Behavioral Semantic Bridge (BSB) that translates abstract instructions into domain-invariant representations; and a Motor Video Generator (MVG) for conditional video rendering. MIND-V employs Staged Visual Future Rollouts, a test-time optimization strategy to enhance long-horizon robustness. To align the generated videos with physical laws, we introduce a GRPO reinforcement learning post-training phase guided by a novel Physical Foresight Coherence (PFC) reward. PFC leverages the V-JEPA world model to enforce physical plausibility by aligning the predicted and actual dynamic evolutions in the feature space. MIND-V demonstrates state-of-the-art performance in long-horizon robotic manipulation video generation, establishing a scalable and controllable paradigm for embodied data synthesis.