VideoWorld 2: Aprendendo Conhecimento Transferível a partir de Vídeos do Mundo Real

Resumo

Aprender conhecimento transferível a partir de dados de vídeo não rotulados e aplicá-lo em novos ambientes é uma capacidade fundamental de agentes inteligentes. Este trabalho apresenta o VideoWorld 2, que estende o VideoWorld e oferece a primeira investigação sobre a aprendizagem de conhecimento transferível diretamente de vídeos brutos do mundo real. Em sua essência, o VideoWorld 2 introduz um Modelo de Dinâmica Latente com Aprimoramento Dinâmico (dLDM) que desacopla a dinâmica da ação da aparência visual: um modelo de difusão de vídeo pré-treinado trata da modelagem da aparência visual, permitindo que o dLDM aprenda códigos latentes que se concentram em dinâmicas compactas e significativas relacionadas à tarefa. Esses códigos latentes são então modelados de forma autorregressiva para aprender políticas de tarefas e apoiar o raciocínio de longo prazo. Avaliamos o VideoWorld 2 em tarefas desafiadoras de fabricação artesanal do mundo real, onde modelos anteriores de geração de vídeo e de dinâmica latente lutam para operar com confiabilidade. Notavelmente, o VideoWorld 2 alcança uma melhoria de até 70% na taxa de sucesso da tarefa e produz vídeos de execução longa coerentes. Na robótica, mostramos que o VideoWorld 2 pode adquirir conhecimento de manipulação eficaz a partir do conjunto de dados Open-X, o que melhora substancialmente o desempenho da tarefa no CALVIN. Este estudo revela o potencial de aprender conhecimento mundial transferível diretamente de vídeos brutos, com todo o código, dados e modelos sendo disponibilizados como código aberto para pesquisas futuras.

English

Learning transferable knowledge from unlabeled video data and applying it in new environments is a fundamental capability of intelligent agents. This work presents VideoWorld 2, which extends VideoWorld and offers the first investigation into learning transferable knowledge directly from raw real-world videos. At its core, VideoWorld 2 introduces a dynamic-enhanced Latent Dynamics Model (dLDM) that decouples action dynamics from visual appearance: a pretrained video diffusion model handles visual appearance modeling, enabling the dLDM to learn latent codes that focus on compact and meaningful task-related dynamics. These latent codes are then modeled autoregressively to learn task policies and support long-horizon reasoning. We evaluate VideoWorld 2 on challenging real-world handcraft making tasks, where prior video generation and latent-dynamics models struggle to operate reliably. Remarkably, VideoWorld 2 achieves up to 70% improvement in task success rate and produces coherent long execution videos. In robotics, we show that VideoWorld 2 can acquire effective manipulation knowledge from the Open-X dataset, which substantially improves task performance on CALVIN. This study reveals the potential of learning transferable world knowledge directly from raw videos, with all code, data, and models to be open-sourced for further research.

VideoWorld 2: Aprendendo Conhecimento Transferível a partir de Vídeos do Mundo Real

VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

Resumo

Support