Видео как новый язык для принятия решений в реальном мире
Video as the New Language for Real-World Decision Making
February 27, 2024
Авторы: Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, Dale Schuurmans
cs.AI
Аннотация
Как текстовые, так и видеоданные в изобилии представлены в интернете и поддерживают масштабное самообучение через предсказание следующего токена или кадра. Однако они используются неравномерно: языковые модели оказали значительное влияние на реальный мир, тогда как генерация видео в основном ограничивалась сферой медиаразвлечений. Тем не менее, видеоданные содержат важную информацию о физическом мире, которую сложно выразить языком. Чтобы устранить этот разрыв, мы обсуждаем недооцененную возможность расширения генерации видео для решения задач в реальном мире. Мы отмечаем, что видео, подобно языку, может служить унифицированным интерфейсом, способным поглощать знания из интернета и представлять разнообразные задачи. Более того, мы показываем, что, как и языковые модели, генерация видео может выступать в роли планировщиков, агентов, вычислительных движков и симуляторов среды с использованием таких методов, как обучение в контексте, планирование и обучение с подкреплением. Мы выделяем ключевые возможности для влияния в таких областях, как робототехника, автономное вождение и наука, подкрепляя это недавними работами, демонстрирующими, что такие продвинутые возможности в генерации видео вполне достижимы. Наконец, мы определяем основные вызовы в генерации видео, которые сдерживают прогресс. Решение этих задач позволит моделям генерации видео продемонстрировать уникальную ценность наряду с языковыми моделями в более широком спектре приложений искусственного интеллекта.
English
Both text and video data are abundant on the internet and support large-scale
self-supervised learning through next token or frame prediction. However, they
have not been equally leveraged: language models have had significant
real-world impact, whereas video generation has remained largely limited to
media entertainment. Yet video data captures important information about the
physical world that is difficult to express in language. To address this gap,
we discuss an under-appreciated opportunity to extend video generation to solve
tasks in the real world. We observe how, akin to language, video can serve as a
unified interface that can absorb internet knowledge and represent diverse
tasks. Moreover, we demonstrate how, like language models, video generation can
serve as planners, agents, compute engines, and environment simulators through
techniques such as in-context learning, planning and reinforcement learning. We
identify major impact opportunities in domains such as robotics, self-driving,
and science, supported by recent work that demonstrates how such advanced
capabilities in video generation are plausibly within reach. Lastly, we
identify key challenges in video generation that mitigate progress. Addressing
these challenges will enable video generation models to demonstrate unique
value alongside language models in a wider array of AI applications.