VideoWorld: Esplorazione dell'apprendimento della conoscenza da video non etichettati
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos
January 16, 2025
Autori: Zhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
cs.AI
Abstract
Questo lavoro esplora se un modello generativo profondo possa apprendere conoscenze complesse esclusivamente da input visivi, in contrasto con l'attuale enfasi sui modelli basati su testo come i grandi modelli linguistici (LLM). Sviluppiamo VideoWorld, un modello di generazione video auto-regressivo addestrato su dati video non etichettati, e testiamo le sue capacità di acquisizione di conoscenza in compiti di Go basati su video e controllo robotico. I nostri esperimenti rivelano due risultati chiave: (1) l'addestramento solo su video fornisce informazioni sufficienti per apprendere conoscenze, inclusi regole, capacità di ragionamento e pianificazione, e (2) la rappresentazione del cambiamento visivo è cruciale per l'acquisizione di conoscenza. Per migliorare sia l'efficienza che l'efficacia di questo processo, introduciamo il Modello di Dinamiche Latenti (LDM) come componente chiave di VideoWorld. Sorprendentemente, VideoWorld raggiunge un livello professionale di 5-dan nel Video-GoBench con un modello di soli 300 milioni di parametri, senza fare affidamento su algoritmi di ricerca o meccanismi di ricompensa tipici nell'apprendimento per rinforzo. Nei compiti robotici, VideoWorld apprende efficacemente diverse operazioni di controllo e generalizza tra ambienti, avvicinandosi alle prestazioni dei modelli oracolo in CALVIN e RLBench. Questo studio apre nuove strade per l'acquisizione di conoscenza da dati visivi, con tutto il codice, i dati e i modelli resi open source per ulteriori ricerche.
English
This work explores whether a deep generative model can learn complex
knowledge solely from visual input, in contrast to the prevalent focus on
text-based models like large language models (LLMs). We develop VideoWorld, an
auto-regressive video generation model trained on unlabeled video data, and
test its knowledge acquisition abilities in video-based Go and robotic control
tasks. Our experiments reveal two key findings: (1) video-only training
provides sufficient information for learning knowledge, including rules,
reasoning and planning capabilities, and (2) the representation of visual
change is crucial for knowledge acquisition. To improve both the efficiency and
efficacy of this process, we introduce the Latent Dynamics Model (LDM) as a key
component of VideoWorld. Remarkably, VideoWorld reaches a 5-dan professional
level in the Video-GoBench with just a 300-million-parameter model, without
relying on search algorithms or reward mechanisms typical in reinforcement
learning. In robotic tasks, VideoWorld effectively learns diverse control
operations and generalizes across environments, approaching the performance of
oracle models in CALVIN and RLBench. This study opens new avenues for knowledge
acquisition from visual data, with all code, data, and models open-sourced for
further research.Summary
AI-Generated Summary