MIND-V: Иерархическая генерация видео для роботизированного манипулирования на длительных горизонтах с физической коррекцией на основе обучения с подкреплением
MIND-V: Hierarchical Video Generation for Long-Horizon Robotic Manipulation with RL-based Physical Alignment
December 7, 2025
Авторы: Ruicheng Zhang, Mingyang Zhang, Jun Zhou, Zhangrui Guo, Xiaofan Liu, Zunnan Xu, Zhizhou Zhong, Puxin Yan, Haocheng Luo, Xiu Li
cs.AI
Аннотация
Обучение с подражанием в физическом мире ограничено дефицитом разнообразных данных о роботизированных манипуляциях с длительным горизонтом. Существующие модели генерации видео в этой области способны синтезировать лишь короткие клипы простых действий и часто опираются на заданные вручную траектории. Для решения этой проблемы мы представляем MIND-V — иерархическую структуру, предназначенную для синтеза физически правдоподобных и логически согласованных видео роботизированных манипуляций с длительным горизонтом. Вдохновлённая когнитивной наукой, MIND-V объединяет высокоуровневое планирование с пиксельным синтезом через три ключевых компонента: Семантический центр рассуждений (SRH), использующий предварительно обученную визуально-языковую модель для планирования задач; Поведенческий семантический мост (BSB), переводящий абстрактные инструкции в инвариантные к домену представления; и Моторный генератор видео (MVG) для условного рендеринга видео. MIND-V применяет поэтапные визуальные прогнозы будущего — стратегию оптимизации на этапе тестирования для повышения устойчивости при длительном горизонте. Для согласования генерируемых видео с физическими законами мы вводим пост-тренировочную фазу подкреплённого обучения GRPO, направляемую новой наградой за физическую предсказуемость (PFC). PFC использует мировую модель V-JEPA для обеспечения физической правдоподобности путём выравнивания предсказанной и фактической динамической эволюции в пространстве признаков. MIND-V демонстрирует передовые результаты в генерации видео роботизированных манипуляций с длительным горизонтом, устанавливая масштабируемую и управляемую парадигму для синтеза данных в физическом мире.
English
Embodied imitation learning is constrained by the scarcity of diverse, long-horizon robotic manipulation data. Existing video generation models for this domain are limited to synthesizing short clips of simple actions and often rely on manually defined trajectories. To this end, we introduce MIND-V, a hierarchical framework designed to synthesize physically plausible and logically coherent videos of long-horizon robotic manipulation. Inspired by cognitive science, MIND-V bridges high-level reasoning with pixel-level synthesis through three core components: a Semantic Reasoning Hub (SRH) that leverages a pre-trained vision-language model for task planning; a Behavioral Semantic Bridge (BSB) that translates abstract instructions into domain-invariant representations; and a Motor Video Generator (MVG) for conditional video rendering. MIND-V employs Staged Visual Future Rollouts, a test-time optimization strategy to enhance long-horizon robustness. To align the generated videos with physical laws, we introduce a GRPO reinforcement learning post-training phase guided by a novel Physical Foresight Coherence (PFC) reward. PFC leverages the V-JEPA world model to enforce physical plausibility by aligning the predicted and actual dynamic evolutions in the feature space. MIND-V demonstrates state-of-the-art performance in long-horizon robotic manipulation video generation, establishing a scalable and controllable paradigm for embodied data synthesis.