ChatPaper.aiChatPaper

Modèles d'occupation vidéo

Video Occupancy Models

June 25, 2024
Auteurs: Manan Tomar, Philippe Hansen-Estruch, Philip Bachman, Alex Lamb, John Langford, Matthew E. Taylor, Sergey Levine
cs.AI

Résumé

Nous présentons une nouvelle famille de modèles de prédiction vidéo conçus pour supporter des tâches de contrôle en aval. Nous appelons ces modèles des modèles d'occupation vidéo (VOCs). Les VOCs opèrent dans un espace latent compact, évitant ainsi la nécessité de faire des prédictions sur des pixels individuels. Contrairement aux modèles du monde en espace latent précédents, les VOCs prédisent directement la distribution actualisée des états futurs en une seule étape, évitant ainsi le besoin de déroulements multi-étapes. Nous montrons que ces deux propriétés sont bénéfiques lors de la construction de modèles prédictifs de vidéo pour une utilisation dans des tâches de contrôle en aval. Le code est disponible à l'adresse suivante : https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.
English
We introduce a new family of video prediction models designed to support downstream control tasks. We call these models Video Occupancy models (VOCs). VOCs operate in a compact latent space, thus avoiding the need to make predictions about individual pixels. Unlike prior latent-space world models, VOCs directly predict the discounted distribution of future states in a single step, thus avoiding the need for multistep roll-outs. We show that both properties are beneficial when building predictive models of video for use in downstream control. Code is available at https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.

Summary

AI-Generated Summary

PDF82November 28, 2024