VideoWorld 2: Apprendimento di conoscenze trasferibili da video del mondo reale

Abstract

L'apprendimento di conoscenze trasferibili da dati video non etichettati e la loro applicazione in nuovi ambienti è una capacità fondamentale degli agenti intelligenti. Questo lavoro presenta VideoWorld 2, che estende VideoWorld e costituisce la prima indagine sull'apprendimento di conoscenze trasferibili direttamente da video grezzi del mondo reale. Il cuore di VideoWorld 2 è un Modello Dinamico Latente a dinamica potenziata (dLDM) che disaccoppia la dinamica delle azioni dall'aspetto visivo: un modello di diffusione video pre-addestrato gestisce la modellazione dell'aspetto visivo, permettendo al dLDM di apprendere codici latenti che si concentrano su dinamiche compatte e significative relative al compito. Questi codici latenti sono poi modellati autoregressivamente per apprendere politiche di azione e supportare ragionamenti a lungo termine. Valutiamo VideoWorld 2 su complessi compiti reali di artigianato manuale, dove precedenti modelli di generazione video e di dinamiche latenti faticano a operare in modo affidabile. Notevolmente, VideoWorld 2 raggiunge un miglioramento fino al 70% nel tasso di successo del compito e produce video di esecuzione lunghi e coerenti. In robotica, dimostriamo che VideoWorld 2 può acquisire conoscenze efficaci sulla manipolazione dal dataset Open-X, migliorando sostanzialmente le prestazioni sui compiti in CALVIN. Questo studio rivela il potenziale di apprendere conoscenze trasferibili sul mondo direttamente da video grezzi. Tutti i codici, i dati e i modelli saranno open-source per ulteriori ricerche.

English

Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.

VideoWorld 2: Apprendimento di conoscenze trasferibili da video del mondo reale

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

Abstract

Support