ChatPaper.aiChatPaper

La vidéo comme nouveau langage pour la prise de décision dans le monde réel

Video as the New Language for Real-World Decision Making

February 27, 2024
Auteurs: Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, Dale Schuurmans
cs.AI

Résumé

Les données textuelles et vidéo sont abondantes sur internet et permettent un apprentissage auto-supervisé à grande échelle grâce à la prédiction du prochain token ou de la prochaine image. Cependant, elles n'ont pas été exploitées de manière équivalente : les modèles de langage ont eu un impact significatif dans le monde réel, tandis que la génération vidéo est restée largement limitée au domaine du divertissement médiatique. Pourtant, les données vidéo capturent des informations importantes sur le monde physique qui sont difficiles à exprimer par le langage. Pour combler cette lacune, nous discutons d'une opportunité sous-estimée d'étendre la génération vidéo pour résoudre des tâches dans le monde réel. Nous observons comment, à l'instar du langage, la vidéo peut servir d'interface unifiée capable d'absorber les connaissances d'internet et de représenter des tâches diverses. De plus, nous démontrons comment, comme les modèles de langage, la génération vidéo peut servir de planificateur, d'agent, de moteur de calcul et de simulateur d'environnement grâce à des techniques telles que l'apprentissage en contexte, la planification et l'apprentissage par renforcement. Nous identifions des opportunités d'impact majeur dans des domaines tels que la robotique, la conduite autonome et les sciences, soutenues par des travaux récents qui montrent que de telles capacités avancées en génération vidéo sont plausibles à atteindre. Enfin, nous identifions les principaux défis de la génération vidéo qui freinent les progrès. Leur résolution permettra aux modèles de génération vidéo de démontrer une valeur unique aux côtés des modèles de langage dans un plus large éventail d'applications de l'IA.
English
Both text and video data are abundant on the internet and support large-scale self-supervised learning through next token or frame prediction. However, they have not been equally leveraged: language models have had significant real-world impact, whereas video generation has remained largely limited to media entertainment. Yet video data captures important information about the physical world that is difficult to express in language. To address this gap, we discuss an under-appreciated opportunity to extend video generation to solve tasks in the real world. We observe how, akin to language, video can serve as a unified interface that can absorb internet knowledge and represent diverse tasks. Moreover, we demonstrate how, like language models, video generation can serve as planners, agents, compute engines, and environment simulators through techniques such as in-context learning, planning and reinforcement learning. We identify major impact opportunities in domains such as robotics, self-driving, and science, supported by recent work that demonstrates how such advanced capabilities in video generation are plausibly within reach. Lastly, we identify key challenges in video generation that mitigate progress. Addressing these challenges will enable video generation models to demonstrate unique value alongside language models in a wider array of AI applications.
PDF221December 15, 2024