VideoWorld 2: Overdraagbare kennis leren uit real-world video's

Samenvatting

Het leren van overdraagbare kennis uit ongelabelde videogegevens en deze toepassen in nieuwe omgevingen is een fundamentele capaciteit van intelligente agenten. Dit werk presenteert VideoWorld 2, dat VideoWorld uitbreidt en het eerste onderzoek biedt naar het direct leren van overdraagbare kennis uit ruwe real-world video's. De kern van VideoWorld 2 is een dynamiek-versterkt Latent Dynamics Model (dLDM) dat actiedynamiek ontkoppelt van visueel uiterlijk: een vooraf getraind videodiffusiemodel verzorgt de modellering van visueel uiterlijk, waardoor de dLDM latente codes kan leren die zich richten op compacte en betekenisvolle taakgerelateerde dynamiek. Deze latente codes worden vervolgens autoregressief gemodelleerd om taakbeleid te leren en langetermijnredenering te ondersteunen. We evalueren VideoWorld 2 op uitdagende real-world handwerk taken, waar eerdere videogeneratie- en latent-dynamiekmodellen moeite hebben om betrouwbaar te functioneren. Opmerkelijk is dat VideoWorld 2 tot 70% verbetering bereikt in taaksuccespercentage en coherente video's met lange uitvoering produceert. In de robotica tonen we aan dat VideoWorld 2 effectieve manipulatiekennis kan verwerven uit de Open-X dataset, wat de taakprestatie op CALVIN aanzienlijk verbetert. Deze studie onthult het potentieel van het direct leren van overdraagbare wereldkennis uit ruwe video's, waarbij alle code, data en modellen worden openbaar gemaakt voor verder onderzoek.

English

Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.

VideoWorld 2: Overdraagbare kennis leren uit real-world video's

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

Samenvatting

Support