Video Bezetting Modellen
Video Occupancy Models
June 25, 2024
Auteurs: Manan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine
cs.AI
Samenvatting
We introduceren een nieuwe familie van videovoorspellingsmodellen die zijn ontworpen om downstream controle taken te ondersteunen. We noemen deze modellen Video Occupancy modellen (VOCs). VOCs werken in een compacte latente ruimte, waardoor het niet nodig is om voorspellingen te maken over individuele pixels. In tegenstelling tot eerdere latente-ruimte wereldmodellen, voorspellen VOCs direct de verdisconteerde verdeling van toekomstige toestanden in één stap, waardoor het niet nodig is om multistep roll-outs uit te voeren. We laten zien dat beide eigenschappen gunstig zijn bij het bouwen van voorspellende modellen van video voor gebruik in downstream controle. Code is beschikbaar op https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.
English
We introduce a new family of video prediction models designed to support
downstream control tasks. We call these models Video Occupancy models (VOCs).
VOCs operate in a compact latent space, thus avoiding the need to make
predictions about individual pixels. Unlike prior latent-space world models,
VOCs directly predict the discounted distribution of future states in a single
step, thus avoiding the need for multistep roll-outs. We show that both
properties are beneficial when building predictive models of video for use in
downstream control. Code is available at
https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.