ChatPaper.aiChatPaper

VideoWorld: Explorando el Aprendizaje de Conocimiento a partir de Videos No Etiquetados

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

January 16, 2025
Autores: Zhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI

Resumen

Este trabajo explora si un modelo generativo profundo puede aprender conocimiento complejo únicamente a partir de entradas visuales, en contraste con el enfoque predominante en modelos basados en texto como los grandes modelos de lenguaje (LLMs). Desarrollamos VideoWorld, un modelo de generación de video auto-regresivo entrenado con datos de video no etiquetados, y evaluamos sus capacidades de adquisición de conocimiento en tareas de Go basadas en video y control robótico. Nuestros experimentos revelan dos hallazgos clave: (1) el entrenamiento solo con video proporciona suficiente información para aprender conocimiento, incluidas reglas, razonamiento y capacidades de planificación, y (2) la representación del cambio visual es crucial para la adquisición de conocimiento. Para mejorar tanto la eficiencia como la eficacia de este proceso, presentamos el Modelo de Dinámica Latente (LDM) como un componente clave de VideoWorld. Notablemente, VideoWorld alcanza un nivel profesional de 5 dan en Video-GoBench con solo un modelo de 300 millones de parámetros, sin depender de algoritmos de búsqueda o mecanismos de recompensa típicos en el aprendizaje por refuerzo. En tareas robóticas, VideoWorld aprende de manera efectiva diversas operaciones de control y generaliza en diferentes entornos, acercándose al rendimiento de modelos oráculo en CALVIN y RLBench. Este estudio abre nuevas vías para la adquisición de conocimiento a partir de datos visuales, con todo el código, datos y modelos de código abierto para futuras investigaciones.
English
This work explores whether a deep generative model can learn complex knowledge solely from visual input, in contrast to the prevalent focus on text-based models like large language models (LLMs). We develop VideoWorld, an auto-regressive video generation model trained on unlabeled video data, and test its knowledge acquisition abilities in video-based Go and robotic control tasks. Our experiments reveal two key findings: (1) video-only training provides sufficient information for learning knowledge, including rules, reasoning and planning capabilities, and (2) the representation of visual change is crucial for knowledge acquisition. To improve both the efficiency and efficacy of this process, we introduce the Latent Dynamics Model (LDM) as a key component of VideoWorld. Remarkably, VideoWorld reaches a 5-dan professional level in the Video-GoBench with just a 300-million-parameter model, without relying on search algorithms or reward mechanisms typical in reinforcement learning. In robotic tasks, VideoWorld effectively learns diverse control operations and generalizes across environments, approaching the performance of oracle models in CALVIN and RLBench. This study opens new avenues for knowledge acquisition from visual data, with all code, data, and models open-sourced for further research.

Summary

AI-Generated Summary

PDF292January 21, 2025