Модели занятости видео

Аннотация

Мы представляем новое семейство моделей прогнозирования видео, разработанных для поддержки управляющих задач. Мы называем эти модели моделями занятости видео (Video Occupancy models, VOCs). VOCs работают в компактном латентном пространстве, избегая необходимости делать прогнозы по отдельным пикселям. В отличие от предыдущих моделей миров в латентном пространстве, VOCs напрямую прогнозируют дисконтированное распределение будущих состояний за один шаг, избегая необходимости многошаговых прогнозов. Мы показываем, что обе эти характеристики полезны при построении прогностических моделей видео для использования в управляющих задачах. Код доступен по ссылке https://github.com/manantomar/video-occupancy-models.

English

We introduce a new family of video prediction models designed to support downstream control tasks. We call these models Video Occupancy models (VOCs). VOCs operate in a compact latent space, thus avoiding the need to make predictions about individual pixels. Unlike prior latent-space world models, VOCs directly predict the discounted distribution of future states in a single step, thus avoiding the need for multistep roll-outs. We show that both properties are beneficial when building predictive models of video for use in downstream control. Code is available at https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.

Модели занятости видео

Video Occupancy Models

Аннотация

Support