ChatPaper.aiChatPaper

VideoWorld 2: Übertragbares Wissen aus realen Videos lernen

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

February 10, 2026
papers.authors: Zhongwei Ren, Yunchao Wei, Xiao Yu, Guixun Luo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI

papers.abstract

Die Übertragung von erlerntem Wissen aus unmarkierten Videodaten auf neue Umgebungen ist eine grundlegende Fähigkeit intelligenter Agenten. Diese Arbeit stellt VideoWorld 2 vor, das VideoWorld erweitert und die erste Untersuchung zum Erlernen übertragbaren Wissens direkt aus rohen Realwelt-Videos bietet. Kernstück von VideoWorld 2 ist ein dynamikverstärktes Latent Dynamics Model (dLDM), das Aktionsdynamik von visueller Erscheinung entkoppelt: Ein vortrainiertes Video-Diffusionsmodell übernimmt die Modellierung der visuellen Erscheinung, wodurch das dLDM latente Codes erlernen kann, die sich auf kompakte und bedeutungsvolle aufgabenrelevante Dynamiken konzentrieren. Diese latenten Codes werden anschließend autoregressiv modelliert, um Aufgabenstrategien zu erlernen und langfristige Planung zu unterstützen. Wir evaluieren VideoWorld 2 anspruchsvollen Realwelt-Aufgaben zur handwerklichen Herstellung, bei denen bisherige Video-Generierungs- und Latent-Dynamics-Modelle an ihre Grenzen stoßen. Bemerkenswerterweise erzielt VideoWorld 2 eine bis zu 70%ige Steigerung der Aufgabenerfolgsrate und erzeugt kohärente Langzeit-Ausführungsvideos. In der Robotik zeigen wir, dass VideoWorld 2 effektives Manipulationswissen aus dem Open-X-Datensatz erwerben kann, was die Aufgabenleistung auf CALVIN erheblich verbessert. Diese Studie offenbart das Potenzial, direkt aus rohen Videos übertragbares Weltwissen zu erlernen. Sämtlicher Code, Daten und Modelle werden zur weiteren Forschung quelloffen bereitgestellt.
English
Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.
PDF101February 12, 2026