ChatPaper.aiChatPaper

Модели занятости видео

Video Occupancy Models

June 25, 2024
Авторы: Manan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine
cs.AI

Аннотация

Мы представляем новое семейство моделей прогнозирования видео, разработанных для поддержки управляющих задач. Мы называем эти модели моделями занятости видео (Video Occupancy models, VOCs). VOCs работают в компактном латентном пространстве, избегая необходимости делать прогнозы по отдельным пикселям. В отличие от предыдущих моделей миров в латентном пространстве, VOCs напрямую прогнозируют дисконтированное распределение будущих состояний за один шаг, избегая необходимости многошаговых прогнозов. Мы показываем, что обе эти характеристики полезны при построении прогностических моделей видео для использования в управляющих задачах. Код доступен по ссылке https://github.com/manantomar/video-occupancy-models.
English
We introduce a new family of video prediction models designed to support downstream control tasks. We call these models Video Occupancy models (VOCs). VOCs operate in a compact latent space, thus avoiding the need to make predictions about individual pixels. Unlike prior latent-space world models, VOCs directly predict the discounted distribution of future states in a single step, thus avoiding the need for multistep roll-outs. We show that both properties are beneficial when building predictive models of video for use in downstream control. Code is available at https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.

Summary

AI-Generated Summary

PDF82November 28, 2024