VideoWorld: Explorando o Aprendizado de Conhecimento a partir de Vídeos Não Rotulados
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
January 16, 2025
Autores: Zhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI
Resumo
Este trabalho explora se um modelo generativo profundo pode aprender conhecimento complexo exclusivamente a partir de entradas visuais, em contraste com o foco prevalente em modelos baseados em texto como os grandes modelos de linguagem (LLMs). Desenvolvemos o VideoWorld, um modelo de geração de vídeo auto-regressivo treinado em dados de vídeo não rotulados, e testamos suas habilidades de aquisição de conhecimento em tarefas de Go baseadas em vídeo e controle robótico. Nossos experimentos revelam duas descobertas-chave: (1) o treinamento apenas com vídeo fornece informações suficientes para aprender conhecimento, incluindo regras, capacidades de raciocínio e planejamento, e (2) a representação da mudança visual é crucial para a aquisição de conhecimento. Para melhorar tanto a eficiência quanto a eficácia desse processo, introduzimos o Modelo de Dinâmica Latente (LDM) como um componente chave do VideoWorld. Notavelmente, o VideoWorld atinge um nível profissional de 5-dan no Video-GoBench com apenas um modelo de 300 milhões de parâmetros, sem depender de algoritmos de busca ou mecanismos de recompensa típicos em aprendizado por reforço. Em tarefas robóticas, o VideoWorld aprende efetivamente diversas operações de controle e generaliza entre ambientes, se aproximando do desempenho de modelos oráculo em CALVIN e RLBench. Este estudo abre novos caminhos para a aquisição de conhecimento a partir de dados visuais, com todo o código, dados e modelos disponibilizados para pesquisa adicional.
English
This work explores whether a deep generative model can learn complex
knowledge solely from visual input, in contrast to the prevalent focus on
text-based models like large language models (LLMs). We develop VideoWorld, an
auto-regressive video generation model trained on unlabeled video data, and
test its knowledge acquisition abilities in video-based Go and robotic control
tasks. Our experiments reveal two key findings: (1) video-only training
provides sufficient information for learning knowledge, including rules,
reasoning and planning capabilities, and (2) the representation of visual
change is crucial for knowledge acquisition. To improve both the efficiency and
efficacy of this process, we introduce the Latent Dynamics Model (LDM) as a key
component of VideoWorld. Remarkably, VideoWorld reaches a 5-dan professional
level in the Video-GoBench with just a 300-million-parameter model, without
relying on search algorithms or reward mechanisms typical in reinforcement
learning. In robotic tasks, VideoWorld effectively learns diverse control
operations and generalizes across environments, approaching the performance of
oracle models in CALVIN and RLBench. This study opens new avenues for knowledge
acquisition from visual data, with all code, data, and models open-sourced for
further research.Summary
AI-Generated Summary