ChatPaper.aiChatPaper

Видео как новый язык для принятия решений в реальном мире

Video as the New Language for Real-World Decision Making

February 27, 2024
Авторы: Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, Dale Schuurmans
cs.AI

Аннотация

Как текстовые, так и видеоданные в изобилии представлены в интернете и поддерживают масштабное самообучение через предсказание следующего токена или кадра. Однако они используются неравномерно: языковые модели оказали значительное влияние на реальный мир, тогда как генерация видео в основном ограничивалась сферой медиаразвлечений. Тем не менее, видеоданные содержат важную информацию о физическом мире, которую сложно выразить языком. Чтобы устранить этот разрыв, мы обсуждаем недооцененную возможность расширения генерации видео для решения задач в реальном мире. Мы отмечаем, что видео, подобно языку, может служить унифицированным интерфейсом, способным поглощать знания из интернета и представлять разнообразные задачи. Более того, мы показываем, что, как и языковые модели, генерация видео может выступать в роли планировщиков, агентов, вычислительных движков и симуляторов среды с использованием таких методов, как обучение в контексте, планирование и обучение с подкреплением. Мы выделяем ключевые возможности для влияния в таких областях, как робототехника, автономное вождение и наука, подкрепляя это недавними работами, демонстрирующими, что такие продвинутые возможности в генерации видео вполне достижимы. Наконец, мы определяем основные вызовы в генерации видео, которые сдерживают прогресс. Решение этих задач позволит моделям генерации видео продемонстрировать уникальную ценность наряду с языковыми моделями в более широком спектре приложений искусственного интеллекта.
English
Both text and video data are abundant on the internet and support large-scale self-supervised learning through next token or frame prediction. However, they have not been equally leveraged: language models have had significant real-world impact, whereas video generation has remained largely limited to media entertainment. Yet video data captures important information about the physical world that is difficult to express in language. To address this gap, we discuss an under-appreciated opportunity to extend video generation to solve tasks in the real world. We observe how, akin to language, video can serve as a unified interface that can absorb internet knowledge and represent diverse tasks. Moreover, we demonstrate how, like language models, video generation can serve as planners, agents, compute engines, and environment simulators through techniques such as in-context learning, planning and reinforcement learning. We identify major impact opportunities in domains such as robotics, self-driving, and science, supported by recent work that demonstrates how such advanced capabilities in video generation are plausibly within reach. Lastly, we identify key challenges in video generation that mitigate progress. Addressing these challenges will enable video generation models to demonstrate unique value alongside language models in a wider array of AI applications.
PDF221December 15, 2024