ChatPaper.aiChatPaper

VideoWorld 2: Обучение передаваемым знаниям на основе реальных видеоданных

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

February 10, 2026
Авторы: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI

Аннотация

Обучение передаваемым знаниям на основе немаркированных видеоданных и их применение в новых условиях является фундаментальной способностью интеллектуальных агентов. В данной работе представлена модель VideoWorld 2, которая расширяет возможности VideoWorld и предлагает первое исследование по обучению передаваемым знаниям непосредственно из сырых видеозаписей реального мира. Основу VideoWorld 2 составляет динамически усиленная модель латентной динамики (dLDM), которая разделяет динамику действий и визуальное представление: предобученная диффузионная модель видео отвечает за моделирование визуального представления, позволяя dLDM обучать латентные коды, сфокусированные на компактной и содержательной динамике, связанной с задачей. Эти латентные коды затем моделируются авторегрессивно для изучения политик задач и поддержки долгосрочного планирования. Мы оцениваем VideoWorld 2 на сложных задачах ручного изготовления предметов в реальном мире, где предыдущие модели генерации видео и латентной динамики демонстрируют низкую надежность. Примечательно, что VideoWorld 2 достигает до 70% улучшения в показателе успешности выполнения задач и создает согласованные видео длительного исполнения. В робототехнике мы показываем, что VideoWorld 2 способна приобретать эффективные знания о манипуляциях из набора данных Open-X, что существенно улучшает производительность задач в среде CALVIN. Это исследование раскрывает потенциал обучения передаваемым знаниям о мире непосредственно из сырых видео. Весь код, данные и модели будут открыты для дальнейших исследований.
English
Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.
PDF101February 12, 2026