Modelli di Occupazione Video

Abstract

Introduciamo una nuova famiglia di modelli di previsione video progettati per supportare attività di controllo downstream. Chiamiamo questi modelli Video Occupancy models (VOC). I VOC operano in uno spazio latente compatto, evitando così la necessità di fare previsioni sui singoli pixel. A differenza dei precedenti modelli di mondo nello spazio latente, i VOC prevedono direttamente la distribuzione scontata degli stati futuri in un singolo passaggio, evitando così la necessità di roll-out multi-step. Dimostriamo che entrambe queste proprietà sono vantaggiose nella costruzione di modelli predittivi di video da utilizzare nel controllo downstream. Il codice è disponibile all'indirizzo https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.

English

We introduce a new family of video prediction models designed to support downstream control tasks. We call these models Video Occupancy models (VOCs). VOCs operate in a compact latent space, thus avoiding the need to make predictions about individual pixels. Unlike prior latent-space world models, VOCs directly predict the discounted distribution of future states in a single step, thus avoiding the need for multistep roll-outs. We show that both properties are beneficial when building predictive models of video for use in downstream control. Code is available at https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.

Modelli di Occupazione Video

Video Occupancy Models

Abstract

Support