Модели занятости видео
Video Occupancy Models
June 25, 2024
Авторы: Manan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine
cs.AI
Аннотация
Мы представляем новое семейство моделей прогнозирования видео, разработанных для поддержки управляющих задач. Мы называем эти модели моделями занятости видео (Video Occupancy models, VOCs). VOCs работают в компактном латентном пространстве, избегая необходимости делать прогнозы по отдельным пикселям. В отличие от предыдущих моделей миров в латентном пространстве, VOCs напрямую прогнозируют дисконтированное распределение будущих состояний за один шаг, избегая необходимости многошаговых прогнозов. Мы показываем, что обе эти характеристики полезны при построении прогностических моделей видео для использования в управляющих задачах. Код доступен по ссылке https://github.com/manantomar/video-occupancy-models.
English
We introduce a new family of video prediction models designed to support
downstream control tasks. We call these models Video Occupancy models (VOCs).
VOCs operate in a compact latent space, thus avoiding the need to make
predictions about individual pixels. Unlike prior latent-space world models,
VOCs directly predict the discounted distribution of future states in a single
step, thus avoiding the need for multistep roll-outs. We show that both
properties are beneficial when building predictive models of video for use in
downstream control. Code is available at
https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.Summary
AI-Generated Summary