비디오: 현실 세계 의사결정을 위한 새로운 언어
Video as the New Language for Real-World Decision Making
February 27, 2024
저자: Sherry Yang, Jacob Walker, Jack Parker-Holder, Yilun Du, Jake Bruce, Andre Barreto, Pieter Abbeel, Dale Schuurmans
cs.AI
초록
텍스트와 비디오 데이터는 인터넷 상에 풍부하게 존재하며, 다음 토큰 또는 프레임 예측을 통해 대규모 자기 지도 학습을 지원합니다. 그러나 이들은 동등하게 활용되지는 않았습니다: 언어 모델은 현실 세계에서 상당한 영향을 미친 반면, 비디오 생성은 주로 미디어 엔터테인먼트에 국한되어 왔습니다. 그러나 비디오 데이터는 언어로 표현하기 어려운 물리적 세계에 대한 중요한 정보를 담고 있습니다. 이러한 격차를 해소하기 위해, 우리는 비디오 생성을 현실 세계의 문제 해결로 확장할 수 있는 잠재력을 논의합니다. 우리는 언어와 유사하게 비디오가 인터넷 지식을 흡수하고 다양한 작업을 표현할 수 있는 통합 인터페이스로 기능할 수 있음을 관찰합니다. 더 나아가, 우리는 언어 모델과 마찬가지로 비디오 생성이 컨텍스트 내 학습, 계획 및 강화 학습과 같은 기술을 통해 플래너, 에이전트, 컴퓨팅 엔진 및 환경 시뮬레이터로 기능할 수 있음을 보여줍니다. 우리는 로보틱스, 자율 주행, 과학과 같은 분야에서 주요 영향 기회를 식별하며, 이러한 고급 비디오 생성 능력이 실현 가능하다는 최근 연구를 근거로 합니다. 마지막으로, 우리는 비디오 생성의 주요 도전 과제를 식별합니다. 이러한 도전 과제를 해결함으로써 비디오 생성 모델은 언어 모델과 함께 더 넓은 범위의 AI 애플리케이션에서 독보적인 가치를 입증할 수 있을 것입니다.
English
Both text and video data are abundant on the internet and support large-scale
self-supervised learning through next token or frame prediction. However, they
have not been equally leveraged: language models have had significant
real-world impact, whereas video generation has remained largely limited to
media entertainment. Yet video data captures important information about the
physical world that is difficult to express in language. To address this gap,
we discuss an under-appreciated opportunity to extend video generation to solve
tasks in the real world. We observe how, akin to language, video can serve as a
unified interface that can absorb internet knowledge and represent diverse
tasks. Moreover, we demonstrate how, like language models, video generation can
serve as planners, agents, compute engines, and environment simulators through
techniques such as in-context learning, planning and reinforcement learning. We
identify major impact opportunities in domains such as robotics, self-driving,
and science, supported by recent work that demonstrates how such advanced
capabilities in video generation are plausibly within reach. Lastly, we
identify key challenges in video generation that mitigate progress. Addressing
these challenges will enable video generation models to demonstrate unique
value alongside language models in a wider array of AI applications.